مجله دانشگاه علوم پزشکی رفسنجان
دوره 13، اسفند 1393، 1170-1153
روایی و پایایی ابزارها و روشهای مختلف اندازهگیری آنها در پژوهشهای کاربردی در سلامت
ابوالفضل محمدبیگی[1]، نرگس محمدصالحی[2]، محمد علی گل[3]
دریافت مقاله: 3/6/93 ارسال مقاله به نویسنده جهت اصلاح: 6/11/93 دریافت اصلاحیه از نویسنده: 12/11/93 پذیرش مقاله: 6/12/93
چکیده
امروزه با گسترش تحقیقات در علوم پزشکی و اجتماعی، پژوهش، آموزش و مدیریت، بسیاری از پدیدهها از طریق ابزارهایی چون پرسشنامهها، چک لیستها و تستهای آموزشی و یا ارزیابیهای داوران و به منظور کمیسازی رفتار افراد یا جامعه، مورد مطالعه قرار میگیرد. روایی و پایایی از شاخصهای لازم جهت اندازهگیری و دستیابی به مقادیر واقعی پیامدها میباشد. آگاهی و فهم کافی از روایی و پایایی از اصول متدولوژی در طراحی مطالعات و کاربرد سنجشهای مختلف است که متأسفانه در بسیاری از موارد نادیده گرفته میشود. هدف نوشتار حاضر آشنایی محققین و دانشگاهیان با مفاهیم پایایی، روایی و شیوههای مختلف اندازهگیری آن است.
واژههای کلیدی: روایی، پایایی، روان سنجی، آلفای کرونباخ، تحلیل عاملی
مقدمه
امروزه با گسترش تحقیقات در علوم پزشکی و اجتماعی، پژوهش، آموزش و مدیریت، بسیاری از پدیدهها از طریق ابزارهایی چون پرسشنامهها، چک لیستها و تستهای آموزشی و یا ارزیابیهای داوران مورد مطالعه قرار میگیرد [1] تا بتوانند رفتار افراد یا جامعه مورد مطالعه را کمیسازی نمایند [2]. از آنجا که بسیاری از تحقیقات بر اساس ابزارهای مذکور انجام میشود، پایایی (Reliability) و روایی(Validity) آنها امری اجتناب ناپذیر است و مقدار آن باید در حد قابل قبولی باشد [2-4]. بر اساس مطالعات انجام شده بیشتر مطالعات در گزارش روایی و پایایی با مشکل رو به رو هستند به نحوی که اطلاعات کافی در مورد ابعاد روان سنجی ابزارها و یا در به کار بردن تستهای روان سنجی وجود ندارد. بر اساس
مطالعهای مروری گرچه در برخی مطالعات روایی محتوی (Content Validity) بیان شده است اما این روایی با کمتر از 5 متخصص انجام شده است. روایی ضابطه به ندرت گزارش شده است و یا خطاهایی در اندازهگیری ضابطه وجود دارد. همچنین، روایی سازه گزارش نمیشود. در خصوص پایایی بیشتر با استفاده از آلفای کرونباخ مقدار سازگاری درونی (Internal Consistency) گزارش میشود اما ثبات (Stability) آزمونها کمتر مورد توجه قرار میگیرد [5]. لذا بررسی ابعاد مختلف روانسنجی ابزارها و مقیاسها یکی از ضروریات اندازهگیری در علوم مختلف و پژوهش است. لذا نوشتار حاضر با هدف آشنایی محققین و پژوهشگران دانشگاهی با مفاهیم روایی و پایایی و روشهای مختلف اندازهگیری پایایی و همچنین، روایی به منظور استفاده صحیح و به جا از روشهای مختلف تهیه شده است. در این مقاله ابتدا تعریفی از روایی و پایایی ارائه شده و به رابطه بین پایایی و روایی پرداخته شده است. سپس به پایایی و روشهای اندازهگیری آن و انواع سنجشهای پایایی شامل سنجش توافق درونی در پایایی با استفاده از آلفای کرونباخ ، پایایی دو نیمه آزمون و پایایی کادر ریچاردسن و همچنین، سنجش ثبات در پایایی با استفاده از آزمون - باز آزمون، فرمهای یکسان، فرمهای متعادل و پایایی بین مشاهده کنندگان اشاره شد. در نهایت به تعریف روایی، انواع روشهای تعیین روایی شامل روایی صوری، روایی محتوی، روایی سازه و روایی ضابطه اشاره شد.
تعریف روایی و پایایی
روایی درجهای از صحت نتایج مطالعه است و نشان میدهد که مطالعه تا چه اندازهای چیزی را که قصد اندازهگیری آن را داشته است به درستی سنجیده است؟ [11-5، 3-1]. پایایی درجهای از یکسان بودن نتایج در طول زمان معین و تحت شرایط مشابه و با روش کار مشابه میباشد که با قابلیت تکرار (Repeatability) و قابلیت تکثیر (Reproducibility) نتایج اندازهگیری میشود [11-5، 3-1] به عبارتی میتوان گفت که پایایی شامل سه بخش متفاوت است. ثبات که به معنی کسب نتایج یکسان در افراد مشابه در صورت تکرار آزمون است؛ هم ارزی یا تعادل (Equivalence) هنگامی به دست میآید که چنانچه آزمون توسط محققین مختلفی به کار رود نتایج یکسانی را به دست آورد؛ و همگنی (Homogeneity) شاخصی است که تمام بخشهای آزمون مورد استفاده دارای سازگاری درونی باشند. بنابراین برای تعیین همگنی، تعدادی از تعاریف مختلف عملیاتی از مفاهیم مشابه بر روی افراد مشابه با یک روش خاص در شیوه جمعآوری دادهها آزمون میشود و نتایج به دست آمده باید شدیداً به یکدیگر وابسته باشند [13-12].
در ارزیابیهای به کار رفته در علوم مختلف، در فعالیتهای آموزشی و پژوهشی، تشخیصهای پزشکی و غیره، بر اساس آن که محقق بخواهد هر کدام از اجزای پایایی شامل ثبات، هم ارزی و یا همگنی را اندازهگیری نماید میتواند از روشهای مختلف به سنجش پایایی بپردازد. بدین منظور جهت بررسی پایایی ابزار، پرسشنامه و یا هر مقیاس سنجش دیگر میتوان از روش آزمون - باز آزمون (Test-Retest) و همچنین، آزمونهای مورد استفاده در تعیین پایایی از جمله ضریب آلفای کرونباخ، روش دو نیمه کردن، کادر ریچارسون و یا فرمهای موازی بر روی نمونهای از گروه هدف استفاده کند.
رابطه بین پایایی و روایی
روایی و پایایی سنجشها، معیارهای ضروری در تعیین دقت و صحت سنجش میباشند. پایایی با خطای تصادفی در ارتباط است و روایی با خطای منظم و بنابراین هرچقدر که تعداد حجم نمونه بالا رود میتواند بر کاهش خطای تصادفی تأثیر گذارد و بنابراین پایایی ابزار افزایش مییابد و بنابراین بر دقت اندازهگیری مؤثر است. اما باید توجه نمود که افزایش روایی مستلزم استفاده از ابزارهای استاندارد و مؤثر خواهد بود. به بیان دیگر روایی نشان دهنده صحت اندازهگیری است [15-14]. ذکر این نکته لازم است که پایایی شرط لازم برای روایی است. به عبارتی چنانچه سنجهای دارای پایایی نباشد نمیتواند مقدار درست و واقعی یک پدیده را نشان دهد. بنابراین در اعتبارسنجی ابزارها، سنجش روایی باید پس از تأیید پایایی صورت گیرد. پایایی با خطای تصادفی و روایی با خطای منظم اندازهگیری، مرتبط است بنابراین افزایش دقت با کاهش خطای تصادفی، پایایی را بالا میبرد و افزایش صحت ناشی از کاهش خطای منظم بوده که روایی را بالا میبرد [16، 14-13]. شرط لازم برای روایی یک آزمون پایایی آن است ولی شرط کافی نیست و برای اینکه یک آزمون معتبر (روا) باشد باید پایا باشد [17، 14، 1]. اما به طور کلی اعتبار و پایایی از هم جدا نبوده و با افزایش پایایی، روایی آن هم افزوده میشود [19-18] و البته پایین بودن پایایی نیز سبب کاهش روایی میگردد و نشاندهنده مجموعهای از خطاهایی است که در اندازهگیری رخ میدهد [19]. گرچه برخی محققین رابطه معکوسی بین پایایی و روایی را در ابزارها نشان دادهاند، به عنوان مثال مصاحبه با سؤالات باز، پایایی کمی دارد حال آنکه روایی بالایی دارد اما یک مصاحبه استاندارد شده نتیجه عکس خواهد داشت [20]. از منظر کلاسیک و روش شناختی نیز تفاوت قابل توجهی در مفاهیم بنیادی حقیقت (Truth) و قطعیت (Certainty) وجود دارد که در شکل 1 مشخص شده است [21-20].
شکل 1- نگاهی اجمالی به لغت شناسی مفاهیم پایه روایی و پایایی از دیدگاههای کلاسیک، مدرن و روش شناختی
از بعد روش شناختی روایی با حقیقت در ارتباط است و پایایی با قطعیت مرتبط میباشد. علاوه بر این رابطه معکوس بین روایی و پایایی در روش متدولوژیک و همچنین، رابطه معکوس بین حقیقت و قطعیت در دیدگاه کلاسیک نشان داده شده است. به این معنی که هر چه پایایی کمتر باشد عدم قطعیت افزایش مییابد [21-20]
پایایی و روشهای اندازهگیری آن
ضریب پایایی عددی بین صفر تا یک میباشد که صفر نشانگر عدم وجود پایایی است و یک پایایی صد در صد را نشان میدهد [22]. بنابراین پایایی شاخصی برای ارزشیابی آزمونها و پرسشنامهها اعم از آزمونهای غربالگری و تشخیصی و پرسشنامههای تحقیقاتی میباشد و به دو دلیل از اهمیت خاصی بر خوردار است: اول آنکه پایایی حاکی از وجود خطای تصادفی (Random Error) در اندازهگیری است که این خطا به دلایل فاکتورهای مربوط به آزمون شونده، فاکتورهای مرتبط با آزمون و شرایط برگزاری آن و همچنین، فاکتورهای مرتبط با امتیاز دهی ایجاد میشوند که اینگونه خطاها تصادفی بوده و اثر آنها بر روی امتیاز آزمون غیر قابل پیشبینی است. بر این اساس چنانچه حجم نمونه افزایش یابد و یا تعداد سؤالات یا آیتمهای ابزار افزایش یابد پایایی بالا میرود. دوم، پایایی پیشگوکننده روایی است [24-23، 9-8، 2].
انواع سنجشهای پایایی
روش مورد استفاده برای سنجش پایایی یک ابزار (آزمون یا پرسشنامه) به دلیل عملکرد و طبیعت ابزار و چگونگی استفاده از آن در زمینه مورد استفاده متفاوت میباشد. گاهی هدف تعیین ضریب پایایی به معنای تعیین توافق درونی است که از روشهای آلفای کرونباخ، کادر ریچارسون و دو نیمه کردن میتوان استفاده کرد. اما چنانچه بخواهیم ثبات ابزار را مورد ارزیابی قرار دهیم میتوان از روش آزمون بازآزمون و یا از روش فرمهای موازی استفاده نمود [25]. همچنین، گاهی هدف از تعیین ضریب پایایی تعیین توافق بین مشاهدهگران یا مصاحبه کنندهگان و یا ارزیابان میباشد.
سنجش توافق درونی در پایایی
1- روش آلفای کرونباخ ( Cronbach's Alpha) :
کرونباخ در سال 1951 در دانشگاه استنفورد روش آماری ضریب آلفا را برای حل مشکل تعیین پایایی آزمونهای چند سؤالی ابداع کرد. این روش معمولترین ضریب پایایی ثبات داخلی است که در بیشتر مطالعات از آن استفاده میشود [35-26] و معرف میزان تناسب گروهی از آیتمهایی است که یکسازه را می سنجند. مقدار آلفا باید حداقل برابر با 7/0 و یا بیشتر باشد تا یک سؤال بتواند در یک ابزار باقی بماند و بسیاری از محققان نقطه 8/0 را برای باقی ماندن یک سؤال در ابزار ضروری میدانند. پایایی برابر با 7/0، ثبات 70 درصدی امتیازات یا نمرات به دست آمده از یک ابزار را نشان میدهد [22، 37-36] و روشی برای محاسبه ثبات درونی بر اساس میانگین همبستگی درونی سؤالات میباشد و هنگامی که مقیاسی از نوع مقیاس لیکرت در ابزار اطلاعات به کار رود محاسبه مقدار ضریب آلفا جهت تعیین پایایی ثبات درونی امری ضروری است [40-38، 36، 22]. مقدار عددی آلفای کرونباخ برابر با متوسط مقدار ضریب پایایی است که از کل ترکیبهای ممکن آیتمهای ابزار، پس از آنکه به دو نیمه تقسیم شود به دست میآید [42-41، 38، 22]. روش آلفای کرونباخ یکی از روشهای سنجش پایایی است که فقط به انجام یک بار آزمون نیاز دارد تا برآوردی از پایایی آزمون را فراهم کند [23-22]. درکل ضریب پایایی آلفای کرونباخ هنگامی مفید است که سؤالات یک ابزار به صورت صحیح – غلط امتیاز بندی نشده باشند و جهت سنجش ثبات درونی سؤالات در مقیاس لیکرت به کار میرود [43، 41، 36، 23]. در سال 2003 مقدار آلفای بیش از 9/0 را عالی، 9/0-8/0 را خوب، 8/0-7/0 را قابل قبول، 7/0-6/0 را قابل بحث، 6/0-5/0 را ضعیف و کمتر از 5/0را غیر قابل قبول معرفی کردند [45-44، 37]. فرمول تعیین آلفای کرونباخ به قرار زیر است [42، 16]
در این فرمول K تعداد آیتمهای ابزار واریانس آیتم و واریانس کل ابزار یا تست (که از مجموع کل آیتمها به دست آمده ) میباشد [42، 25].
2- پایایی دو نیمه آزمون (Split half reliability) :
در این روش یک آزمون به دو نیمه تقسیم شده و رابطه همبستگی بین دو نیمه آزمون سنجیده میشود. این آزمون معمول برای متغیرهای دو حالتی که کد صفر به پاسخهای غلط و کد یک به پاسخهای صحیح داده میشود به کار میرود. در این روش دو نیمه آزمون باید در محتوی و سختی سؤالات باهم مشابه باشند و از آنجا که تعداد سؤالات ابزار به دو قسمت تقسیم شده است میبایست روش ضریب همبستگی به کار رود که با استفاده از ضریب اسپیرمن و گاتمن محاسبه میشود [46، 41، 25]. ضریب اسپیرمن براون فرمی از سنجش پایایی دو نیمه آزمون است که برای برآورد پایایی کل آزمون به کار میرود. همبستگی پیرسون بین دو نیمه آزمون، پایایی نیمهای از ابزار یا مقیاس را برآورد میکند اما ضریب پیشگویی اسپیرمن، پایایی کل آزمون را بر اساس نیمههای آن برآورد میکند. مقدار این ضریب بیشتر از ضریب پایایی نیمههای آزمون (X1 وX2 ) است و معمولاً مساوی با دو برابر ضریب نیمه آزمون تقسیم بر مقدار یک به اضافه پایایی نیمه دیگر آزمون خواهد بود. ضریب پایایی اسپرمن براون با فرمول زیر محاسبه میشود [25].
در بین سنجشهای پایایی دو نیمه آزمون، ضریب پایایی اسپیرمن شدیداً تحت تأثیر ترتیب و نحوه قرار گرفتن سؤالات ابزار مورد استفاده در هر یک از دو نیمه آزمون میباشد. در این روش باید به شکل کاملاً دقیقی، تصادفی انجام شود و تخصیص تصادفی سؤالات بین دو نیمه آزمون باید تساوی واریانس بین دو فرم را تأمین نماید. اما همیشه این امر باید توسط محقق چک شود. زیرا هیچگاه این امر تضمین نمیشود و مقدار پایایی از یک اندازهگیری به اندازهگیری بعدی متفاوت خواهد بود [47، 2-1]. ضریب گاتمن فرض میکند که پایایی نیمه اول و دوم (دو نیمه فرم) یکسان است و به تساوی واریانسهای بین دو نیمه آزمون نیازی ندارد. بهترین نیمه هنگامی ایجاد میشود که هر نیمه سؤالاتی را که بیشترین همبستگی درونی دارند، شامل شود. به عبارتی زمانی که ابزاری به دو نیمه تقسیم شود به طوری که هر نیمه سؤالاتی را که شدیداً وابسته به همان گروه هستند و هیچگونه وابستگی بین دو گروه ندارند را شامل شود، ضریب دو نیمه گاتمن کمترین مقدار ممکن را خواهد گرفت و زمانی که سؤالات شدیداً وابسته به یکدیگر از هم جدا شده و در دو گروه متفاوت قرار گیرند ضریب دو نیمه گاتمن بشترین مقدار ممکن را خواهد گرفت [41، 16، 1].
3- پایایی کادر ریچاردسن (Kuder- Richardson reliability coefficient ):
این روش شامل دو آزمون KR20 و KR21 میباشد. این روشها، آزمونهای همگنی (ثبات بین سؤالات) میباشند که نسبت پاسخهای صحیح به غلط را در هر سؤال ابزار یا آزمون مد نظر قرار میدهند و برای آزمونهایی که پاسخ آنها به شکل صحیح و غلط میباشد مفید است و در صورتی که که کد صفر به پاسخهای غلط و کد یک به پاسخهای صحیح داده میشود به کار رود [48-47]. از لحاظ ریاضی قابل اثبات است که ضریب پایایی کادر ریچاردسن برابر با میانگین ضرایب نیمههای آزمون به دست آمده از کل نیمههای ممکن یک آزمون میباشد در اینگونه آزمونها (دو حالتی) مقدار KR20، برابر با آلفای کرونباخ میشود. اما روش KR21 هنگامی مفید است که مطمئن باشیم کل سؤالات پرسشنامه از لحاظ سختی با هم برابرند [23، 19، 16، 1]. در این روش آزمون یا ابزار هنگامی مورد پذیرش است که ضریب پایایی کادر ریچاردسن حداقل برابر با 64/0 باشد اما در آزمونهای استاندارد این مقدار باید از 80/0 بالاتر باشد [45، 18].
در این فرمول n تعداد آیتمها، Var واریانس کل تست، مجموع ضرب درصدی از افرادی است که به آیتم پاسخ صحیح دادهاند (p) در نسبتی از کل افرادی است که به آیتم پاسخ غلط دادهاند (q) میباشد [48-47].
سنجش ثبات در پایایی
الف- پایایی آزمون - باز آزمون:
در این روش جهت سنجش پایایی، سؤالات آزمون در دو نوبت به یک گروه واحد، تحت شرایط مشابه داده میشود و نمرات حاصل با هم مقایسه میشوند. در نهایت ضریب همبستگی بین نمرات حاصل از اجرای دو بار آزمون برآورد شده تا چگونگی شباهت امتیازات مشخص گردد و به عنوان ضریب پایایی به کار میرود. معمولترین روش برای یافتن همبستگی بین نمرات در این روش، محاسبه ضریب همبستگی اسپیرمن براون میباشد [41، 25]. روش آزمون- بازآزمون فرض میکند که متغیرها یا مفاهیم مورد اندازهگیری و همچنین، خصوصیات آزمون شوندگان در طول دوره تغییر نخواهند کرد [49] و به دلیل برخی معایب آن از قبیل آشنایی آزمون شوندگان با محتوی سؤالات، مشکل در تعیین فاصله زمانی مناسب برای اجرای دو نوبت آزمون و عدم علاقه آزمون شوندگان به اجرای نوبت دوم توسط بسیاری از محققان بیارزش دانسته شده است [49، 41]. محققین سه نوع اثر متفاوت شامل اثر حافظه (Memory Effect)، اثر خستگی (Fatigue Effect) و اثرات ناشی از تغییرات واقعی (Genuine Change Effect) در مقدار پایایی آزمون بازآزمون مؤثر خواهند بود [23]. اثر حافظه که به دلیل یادآوری سؤالات در آزمون است سبب ایجاد نوعی خطای همبستگی (غیر تصادفی) شده و باعث بالا رفتن همبستگی نمرات آزمون و بازآزمون میگردد که پایایی را بالا میبرد. اثر خستگی نوعی خطای تصادفی در بازآزمون شده و مقدار پایایی را کاهش میدهد. خطای ناشی از تغییرات واقعی نیز معمولا سبب کاهش پایایی میگردد [23].
فاصله زمانی بین آزمون و باز آزمون یکی از چالشهای اصلی در به کار بردن روش آزمون بازآزمون در تعیین پایایی سنجهها است. فاصله زمانی مناسب برای انجام دو آزمون به ثبات متغیرهایی که عامل تحت بررسی را تحت تأثیر قرار میدهد بستگی دارد. به عنوان مثال چنانچه متغیر مورد نظر اندازهگیری فشار خون باشد زمان کوتاه خواهد بود اما جهت سنجش نگرش در مورد یک پدیده روانشناختی به فاصله زمانی طولانی تری نیاز است. اما فاصله زمانی متداول، چند هفته میباشد [50، 41، 23، 5]. بنابراین نکته مهم در این روش، فاصله زمانی بین دو آزمون نکته مهمی در استفاده از این آزمون است و اعتقاد بر آن است که فاصله زمانی بین دو آزمون باید تا حدی باشد که از طرفی فراموشی عبارات ابزار اتفاق بیفتد و از طرف دیگر تغییر در پدیده مورد اندازه گیری رخ ندهد برخی معتقدند که این فاصله را بین دو هفته تا یک ماه پیشنهاد کردهاند.
قابل قبولترین آزمون جهت تعیین ثبات (آزمون پایایی) آزمون شاخص همبستگی درون خوشهای (Interclass Correlation Coefficient) است . چنانچه این شاخص بالاتر از 8/0 باشد میزان ثبات مطلوب است [51].
ب- پایایی فرمهای موازی (یکسان) و دقیقاً یکسان (Parallel & strictly parallel forms reliability) :
این دو مدل، روشهایی برای آزمون آماری تساوی میانگینها و واریانسها میباشند. روش دقیقاً یکسان فرض میکند که امتیازات سؤال درست میانگین و واریانس مشابهی دارند در حالی که مدل موازی فرض میکند که آنها واریانس مشابهی دارند اما لازم نیست که میانگین مشابهی داشته باشند. برآورد پایایی در روش موازی مساوی با آلفای کرونباخ میباشد و در مدل دقیقاً موازی بر اساس آلفای کرونباخ بوده ولی از تفاضل میانگین سؤالات به دست میآید [52، 25].
ج- پایایی فرمهای متعادل (Equivalent forms reliability):
در این روش دو فرم جداگانه در مورد یک موضوع، به یک گروه مشابه داده میشود و هر فرم تعدادی از سؤالات آزمون را شامل میشود. به عبارتی دو آزمون معادل در مورد یک مفهوم یا متغیر به خصوص تهیه شده و در فاصله کوتاهی به یک گروه واحد داده میشود. ضریب همبستگی بین نمرات حاصل از این دو فرم برابر با پایایی فرمهای متعادل میباشد. این روش به دلیل مشکل در طراحی و ساخت دو فرم یا نمونه سؤال همسان و مساوی در مورد یک مفهوم، عدم علاقه آزمون شوندگان برای پر کردن فرم دوم و یادگیری ناشی از فرم اول و تأثیر آن در تکمیل فرم دوم کاربرد زیادی ندارد [47، 25].
د- پایایی بین مشاهده کنندگان (Inter rater or observer reliability):
این ضریب ثبات و همبستگی نمرات بین مشاهده کنندگان یا داوران یا ارزیابان مختلف یک موضوع را میسنجد و ضریب توافق هم نامیده میشود که با ضریب کاپا نشان داده میشود [53، 19] و زمانی که یک ابزار یا پرسشنامه با سؤالات تشریحی، بر روی افراد مشابهی توسط دو یا چند مصاحبه گر یا پرسشگر به کار رود و بخواهیم به یک توافق کلی در مورد ابزار دست یابیم به کار میرود [54، 25، 16]. ضریب کاپا بین صفر تا یک متغیر است و به صورت درصد بیان میشود و بر اساس مقالات موجود دسته بندی قدرت ضریب کاپا به قرار جدول 1 است [24].
جدول 1- قدرت مقادیر مختلف ضریب کاپا در تعیین میزان توافق بین مشاهده کنندهگان یا داوران
مقدار آماره کاپا |
قدرت توافق |
کمتر از صفر |
ضعیف |
2/0-0 |
کم |
4/0-21/0 |
پایین تر از متوسط |
60/0-41/0 |
متوسط |
80/0-61/0 |
خوب |
1-81/0 |
عالی |
بر اساس مقادیر ارائه شده در جدول 1 حداقل مقدار قابل قبول ضریب کاپا بیش از 6/0 میباشد و مقادیر بالاتر از 8/0 در توافق دو داور یا ارزیاب ایدهآل میباشد.
همانطور که بیان شد ضریب پایایی میتواند با یک آزمون و یا بیش از یک آزمون محاسبه شود و همچنین، میتواند آزمون یا آزمونهای مورد استفاده در یک زمان یا بیش از یک زمان به کار روند.
جدول 2- رابطه بین تعداد دفعات انجام آزمون در زمانهای مختلف و تعداد فرمهای یک آزمون در زمان خاص
دفعات لازم برای اجرای آزمون |
تعداد سنجههای مورد نیاز جهت تعیین پایایی |
|
یک آزمون |
دو آزمون |
|
یکبار |
دو نیمه کردن |
فرمهای موازی |
دو بار |
آزمون- بازآزمون |
----- |
در کل بر اساس تعداد دفعات انجام یک آزمون و تعداد فرمهای آزمون مورد نیاز برای سنجش پایایی یک ابزار به دلیل عملکرد و طبیعت آن و چگونگی استفاده در طرح تحقیقاتی یا جامعه، باید یکی از روشهای فوق را که در جدول 2 و شکل شماره دو رابطه بین تعداد دفعات و تعداد فرمهای یک آزمون را نشان میدهد، مورد استفاده قرار داد.
شکل 2- انواع مختلف سنجش پایایی و ارتباط آنها با یکدیگر [2]
بر اساس نمودار شماره دو نیز مشخص شده است که پایایی دو جزء متفاوت شامل ثبات و توافق درونی را شامل میشود که ثبات زمانی را با آزمون-بازآزمون میسنجند و توافق درونی را میتوان با یکی از روشهای دو نیمه کردن، توافق بین داوران با استفاده از ضریب کاپا و یا آلفای کرونباخ تعیین نمود.
تعریف روایی
سنجههای محقق ساخته و سنجههایی که اعتبار آنها در فرهنگها و زبانهای دیگر به تأیید رسیده باشد نیازمند اعتبار سنجی میباشند. در سنجههایی با نسخ لاتین یا زبان بیگانه، ابتدا پرسشنامه توسط دو فرد متبحر (و یا بیشتر) از زبان اصلی به زبان فارسی ترجمه میشود. در مرحله بعدی طی مقایسه و بررسی دو متن (متنهای) ترجمه شده از نظر کیفیت با یکدیگر مقایسه میشوند و مورد ارزیابی قرار میگیرند. در مواردی مشاوره با مترجمین و فردی انگلیسی زبان صورت میگیرد و در نهایت برای انتخاب مناسبترین ترجمه برای عبارات، تلفیق و ترکیب ترجمههای اولیه صورت گرفته تا در مورد یک نسخه فارسی مشترک توافق گردد و بدین طریق پرسشنامه به یک ترجمه واحد تبدیل میشود. سپس نسخه نهایی ترجمه شده، جهت برگرداندن از زبان فارسی به زبان اصلی (ترجمه معکوس) در اختیار یک مترجم دیگر که متن اولیه انگلیسی را ندیده بود، قرار میگیرد. هدف از این کار اطمینان بیشتر از صحت ترجمه پرسشنامه است. پس از مقایسه نسخه ترجمه شده به انگلیسی با متن اصلی پرسشنامه و مشاوره با مترجم مربوطه و فرد انگلیسی زبان، یکسانی مفهومی (در بر داشتن محتوای مفهومی نسخه اصلی پرسشنامه) و کیفیت کلی ترجمه بررسی میگردد. سپس نسخه نهایی فارسی بر اساس ترجمه نهایی پرسشنامه معکوس و با نظر مترجمان و متخصصین تهیه میگردد. در نهایت جهت تعیین روایی ابزار، روایی صوری (Face Validity)، روایی محتوی (Content Validity) و روایی سازه (Construct Validity) ابزار یا سنجه مورد استفاده باید بررسی و ارزیابی گردد. در پرسشنامههای محقق ساخته، پس از تهیه بانک سؤالات و تهیه پرسشنامه مورد نظر تیم پژوهش، نیز تعیین روایی صورت میگیرد. بدین صورت چه در سنجههای برگردان از زبانهای دیگر و چه در سنجههای محقق ساخته، پس از تهیه نسخه نهایی فارسی پرسشنامه، در ابتدا روایی صوری بررسی میشود تا در صورت نیاز به تغییر پرسشنامه کل اعتبار پرسشنامه دستخوش تغییر نشود.
روایی صوری: روایی صوری قضاوت عینی در مورد ساختار ابزار است و از نگاه گروه هدف به این سؤالات پاسخ میدهد که: آیا ابزار طراحی شده به صورت ظاهری با هدف مطالعه مرتبط است؟ آیا افرادی که قرار است به ابزار پاسخ دهند، با عبارات و جملهبندی ابزار موافق هستند؟ آیا برداشت افراد غیر متخصص (گروه هدف) همان برداشتی است که مورد نظر محقق است؟ آیا اجزاء و کلیت ابزار قابل پذیرش پاسخدهندگان میباشد [2].
برای تعیین روایی صوری ابزار میتوان از دو روش کیفی و کمی روایی صوری استفاده نمود. در روش کیفی و درآغاز فرآیند تعیین روایی صوری، با کمک متخصین امر در رشتههای مرتبط با زمینه تحقیقاتی و پرسشنامه، از متخصصین آمار و اپیدمیولوژی و بر حسب موضوع از متخصصین روانشناسی یا علوم دیگر استفاده میشود. برای ارزیابی ضریب تمیز هر سؤال همبستگی آنها با نمره کل سنجیده میشود. بدین منظور پرسشنامه فارسی به دو فرد هیأت علمی متبحر در زبان انگلیسی و واژههای تخصصی داده میشود تا نسخه نهایی فارسی را از نظر مطلوب بودن عبارات به لحاظ وضوح (استفاده از واژههای ساده و قابل فهم)، کاربرد زبان مشترک (پرهیز از به کارگیری واژههای فنی و تخصصی) مورد بررسی قرار دهند. در صورت لزوم میتوان تغییراتی را در سنجه مورد استفاده در جهت ساده تر کردن و قابلیت درک بیشتر انجام داد. همچنین، برای دریافت نظرات گروه هدف، مصاحبهای با نمونهای از آنها جهت یافتن دشواری در درک عبارات و کلمات، تناسب و ارتباط مطلوب آیتمها، احتمال وجود ابهام و برداشتهای نارسا از عبارات و یا وجود نارسایی در معانی کلمات انجام میشود و در صورت وجود مشکلات بایستی نظرات آنان به صورت تغییراتی جزئی در پرسشنامه اعمال شود.
روایی صوری سنجهها به صورت کمی را با استفاده از روش تأثیر آیتم اندازهگیری میکنند. بدین منظور برای هریک از آیتمهای سنجه، طیف لیکرتی 5 قسمتی در نظر گرفته میشود: کاملاً مهم است (امتیاز 5)، مهم است (امتیاز 4)، به طور متوسطی مهم است (امتیاز 3)، اندکی مهم است (امتیاز 2) و اصلاً مهم نیست (امتیاز1). سپس پرسشنامه جهت تعیین روایی صوری در اختیار گروه هدف قرار گرفته و پس از تکمیل پرسشنامهها توسط گروه هدف، با استفاده از فرمول روش تأثیر آیتم، روایی صوری محاسبه میگردد.
در فرمول تأثیر آیتم، فراوانی تکرار امتیاز توسط گروه هدف را نشان میدهد.
روایی محتوی
روایی محتوی بطور معمول به چنین سؤالاتی پاسخ میدهد که آیا ابزار طراحی شده همه جوانب مهم و اصلی مفهوم مورد اندازهگیری را در بردارد؟ آیا سازههای ابزار همان چیزی را که باید بررسی میکند؟ آیا اجزاء و کلیت ابزار قابل پذیرش متخصصان ذیربط میباشد؟ جهت تعیین روایی محتوای میتوان از دو روش کیفی و کمی روایی محتوا استفاده کرد [55]. در روش کیفی سنجش اعتبار محتوا، میتوان مصاحبه با متخصصین در پیامد مورد اندازهگیری و همچنین، مشاوره با متخصصین اپیدمیولوژی و آمار داشت. در ارزیابی کیفی روایی محتوا رعایت دستور زبان، استفاده از کلمات مناسب، اهمیت آیتمها، قرارگیری آیتمها در جای مناسب خود، زمان تکمیل ابزار طراحی شده مورد توجه قرار میگیرد. پس از جمعآوری ارزیابی متخصصین، با مشاوره با اعضای تیم تحقیق، تغییرات مورد نیاز در ابزار میبایستی مورد توجه قرار گیرد [56-55].
گرچه در بیشتر مطالعات تنها به ذکر این نکته بسنده میشود که روایی محتوی توسط متخصصین و صاحبنظران بررسی شد [32-30، 28، 26] اما باید توجه داشت که این شیوه از نظر متدولوژی خالی از اشکال نیست. روایی محتوی به صورت کمی نیز بر اساس نظرات متخصصین و با محاسبه دو شاخص نسبت روایی محتوا Content Validity Ratio (CVR) و شاخص روایی محتوا Content Validity Index (CVI) محاسبه میشود [60-57]. جهت اطمینان از اینکه مهمترین و صحیحترین محتوا (ضرورت آیتم) انتخاب شده است از شاخص نسبت روایی محتوا و برای اطمینان از این که آیتمهای ابزار به بهترین نحو جهت اندازهگیری محتوا طراحی شدهاند از شاخص روایی محتوا استفاده میگردد. جهت تعیین نسبت روایی محتوی به صورت کمی از تعدادی از متخصصین و صاحبنظران استفاده میشود تا در مورد هر کدام از آیتمهای ابزار یا سنجه مورد استفاده به سه طیف آیتم شامل ضروری است، مفید اما ضروری نیست و ضرورتی ندارد، پاسخ دهند. بهتر آن است که از تعداد ارزیابان بیشتری (بالاتر از 10 نفر) استفاده شود. CVR بر اساس نظز داوران به قرار ذیل محاسبه میشود:
در فرمول نسبت روایی محتوی، ne تعداد ارزیابانی است که گویه مورد نظر را ضروری یا سودمند میدانند و N تعداد کل ارزیابان یا داورانی است که یک گویه را بررسی کردهاند [59، 57]. حداقل مقادیر CVR در تستهای یک طرفه مورد نظر Lawshe در جدول 3 آمده است [61-59].
جدول 3- حداقل مقادیر CVR در تستهای یک طرفه مورد نظر Lawshe جهت مناسب بودن روایی محتوی
تعداد ارزیابان |
حداقل مقدار نسبت روایی محتوی |
5 |
99/0 |
6 |
99/0 |
7 |
99/0 |
8 |
75/0 |
9 |
78/0 |
10 |
62/0 |
15 |
49/0 |
20 |
42/0 |
25 |
37/0 |
30 |
33/0 |
35 |
31/0 |
40 |
29/0 |
پس از تعیین و محاسبه CVR، میتوان شاخص CVI را محاسبه نمود. برای محاسبه این شاخص، ارزیابان میبایست به هر آیتم ابزار مورد استفاده، در خصوص سه معیار مربوط یا اختصاصی بودن، سادگی و روان بودن و وضوح یا شفاف بودن، بر اساس طیف لیکرتی 4 قسمتی اظهار نظر مینمایند. مثلاً جهت معیار مربوط بودن گزینههای، مربوط نیست=1، نسبتاً مربوط است =2، و مربوط است =3 و کاملاً مربوط است =4، به کار گرفته میشود و سپس با استفاده از فرمول CVI شاخص روایی محتوا محاسبه میگردد [64-62، 59، 57].
نسبت تعداد ارزیابی که به آیتم نمره 3 و 4 دادهاند |
= |
Cv1 |
تعداد کل ارزیابان |
روایی سازه: مفهوم مرکبی است که مستلزم بررسی چند مرحله است و با روایی ضابطه که شامل روایی همزمان، روایی پیشگویی کننده ، روایی تمایز و روایی همگرایی است سنجیده میشود [2].
روایی ضابطه (Criterion-related Validity): درجهای از توافق بین یک تست با یک یا تعداد بیشتری تست معتبر دیگر در همان زمینه (که بهتر است دقیق و ایده آل باشد) است که معمولاً با استفاده از ضریب همبستگی بین آنها سنجیده میشود [2].
الف- روایی همزمان (Concurrent Validity): هنگامی برآورد میشود که معیار (استاندارد) در حال حاضر وجود دارد. به عنوان مثال میتوان در یک بررسی از کارمندان میزان حقوق دریافتی را پرسید و به عنوان یک ضابطه از مدارک حسابداری به عنوان ضابطه استفاده نمود و همبستگی مقدار حقوق گزارش شده با مقدار واقعی آن بر اساس مدارک موجود را محاسبه کرد.
ب- روایی پیشگویی کننده (Predictive Validity): هنگامی کاربرد دارد که معیار در حال حاضر وجود ندارد و در زمان آینده اتفاق میافتد. هدف آن است تا بدانیم یک مقیاس یا ابزار تا چه اندازه میتواند پیامدی را در آینده پیشبینی کند، به عنوان مثال بر اساس نمره میان ترم دانشجویان قبولی و یا رد شدن آنها را در پایان ترم پیشبینی کنیم [2].
ج- روایی همگرایی (Convergent Validity) که عبارتست از همبستگی نسبتاً قوی میان سؤال مربوط به یک حیطه با همان حیطه که بنابر توصیه سازمان اروپایی تحقیقات و درمان سرطان ضریب همبستگی پیرسون باید بزرگتر از 4/0 باشد [63، 2]. اصل در جهت گروهبندی متغیرها نیز در یک حیطه خاص بر این منوال است که چنانچه ضریب همبستگی جدول ماتریس همبستگی کمتر از 3/0± باشد حداقل بوده، 4/0± بیانگر مهم بودن متغیر و 5/0± بیانگر اهمیت اساسی متغیر در حیطه مورد نظر است. اما چنانچه ضریب همبستگی کمتر از 3/0± محاسبه شود محقق باید بررسی کند که آیا کاربرد تحلیل عاملی (در ادامه مقاله به آن پرداخته میشود) برای ابزار مناسب بوده یا خیر؟ [58].
د- روایی تمایز ((Discriminant Validity که بر همبستگی ضعیف بین سؤالات مربوط به یک حیطه با دیگر حیطهها دلالت دارد. به عبارت دیگر ضریب همبستگی یک سؤال با حیطههای دیگر باید کمتر از ضریب همبستگی آن سؤال با حیطههای مربوط به خودش باشد. یک ابزار موفق علاوه بر آنکه باید با ابزارهای دیگر که سازه مشابه را اندازهگیری میکند همگرا باشد باید با ابزارهای یا مقیاسهای مفاهیم دیگری که یک نظریه را با مفهوم کانونی پیوند میزند نیز همبستگی بالایی داشته باشد. علاوه بر آن هرچند اعتبار همگرا لازم است اما کافی نیست و اعتبار تفکیکی در حد اعتبار همگرا لازم است زیرا به بررسی حساسیت ابزارها در سنجش پدیده ای غیر مربوط می پردازد و میزان ابهام یا گسترده بودن مفهوم را نشان میدهند [63، 58، 2]. شکل 3 نشان دهنده انواع زیرشاخههای روایی است.
شکل 3- روشهای مختلف سنجش روایی سازه و ابعاد مختلف روایی ضابطه و ترجمه
بنابراین روایی سازه منتج از روایی ترجمه و روایی ضابطه میباشد که روایی ترجمه با تعیین روایی صوری و روایی محتوی به دست میآید و روایی ضابطه شامل چهار بعد روایی همزمان، روایی همگرایی، روایی تمایز و روایی پیشگویی میباشد [2].
روایی ساختار (Construct Validity) آیتمهای یک ابزار میتواند بر اساس تحلیل عاملی تعیین شود. تحلیل عاملی به دو شکل کلی انجام میگیرد که شامل تحلیل عاملی اکتشافی و تأییدی است. تحلیل عاملی اکتشافی در بیشتر نرمافزارهای آماری در دسترس از جمله SPSS قابل اجرا است حال این که تحلیل عاملی تأییدی با SPSS قابل انجام نبوده و باید از سایر نرمافزارها برای اجرای آن استفاده نمود. تحلیل عاملی تأییدی هنگامی کاربرد دارد که ابزار یا پرسشنامه مورد استفاده از روایی سازه مناسب برخوردار باشد و به منظور تأیید کارهای قبلی به کار میرود بنابراین امکان استخراج فاکتورهای جدید در این نوع تحلیل عاملی وجود ندارد. تحلیل عاملی اکتشافی معمولا با روش مؤلفههای اصلی (Principle Component Analysis (PCA)) انجام میگیرد و ارتباط درونی میان متغیرها را مورد بررسی قرار می دهد تا طبقاتی از متغیرها که دارای بیشترین ارتباط با یکدیگر هستند را کشف نماید [65، 58، 11]. به این صورت آیتمهایی از ابزار که در هر فاکتور بیشترین همبستگی را با یکدیگر نشان میدهند میتوانند آیتمهای مورد استفاده در تبین هر فاکتور یا مؤلفه ابزار قرار گیرند. جهت بررسی میزان تطابق و نامگذاری عوامل استخراج شده از چرخش واریماکس و یا پروماکس استفاده میگردد [68-66، 59-58].
نکته مورد توجه در تحلیل عاملی پرداختن به نمونه گیری کیسر مایر الکین (KMO) و آزمون کرویت بارتلت (BT) و همچنین مقدار عددی نقطه عطف یا ارزش ویژه Egenvalue است که معمولاً برابر با 1 در نظر گرفته میشود و به عنوان حداقل بار عاملی مورد نیاز برای حفظ هر عبارت در عوامل استخراج شده از تحلیل عاملی در نظر گرفته میشود. قابل ذکر است که در تحلیل عاملی، مقدار Determinant میبایست مخالف صفر و مقدار کای اسکوئر آزمون بارتلت عددی بزرگ و معنیدار از نظر آماری باشد و همچنین معیار KMO به عدد یک نزدیک باشد تا نشاندهنده کفایت نمونهگیری و حجم نمونه کافی برای اجرای تحلیل عاملی مدنظر قرار گرفته شود. در خصوص حجم نمونه لازم جهت انجام تحلیل عاملی تناقضات متفاوتی وجود دارد. Tabachnick حداقل 300 نمونه را برای انجام تحلیل عاملی ضروری میداند اما Hair و همکاران [69] بیان میکنند که حجم نمونه باید بیش از 100 باشد اما برخی منابع دیگر از جمله Comrey و Lee [70] طبقهبندی انجام دادهاند که 100 را ضعیف، 200 را نسبتاً خوب، 300 را خوب، 500 را خیلی خوب و 1000 و بیشتر را عالی معرفی کردهاند [70، 68-66، 58].
در آخر ذکر این نکته ضروری است که روایی و پایایی از شاخصهای لازم جهت اندازهگیری و دستیابی به مقادیر واقعی پیامدها میباشد. آگاهی و فهم کافی از آنها یکی از اصول متدولوژی در طراحی مطالعات و سنجشهای مختلف است که متاسفانه در بسیاری موارد نادیده گرفته میشود. بر اساس موارد ذکر شده در تعیین پایایی میتوان بیان کرد که افزایش تعداد سؤالات مشابه با سؤالات قبلی برای طولانیتر کردن آزمون، متجانس و همگون کردن سؤالات، افزودن سؤالات با ضریب دشواری متوسط، افزودن سؤالات با ضریب تمیز بالا، به کارگیری آزمون بر روی گروهی از افراد که از نظر توانایی پاسخگویی به آزمون تجانس کمیدارند و همچنین، به کارگیری آزمون سرعت، یعنی اجرای آزمون در یک زمان محدود از عوامل مؤثر در افزایش پایایی ابزارها یا سنجهها میباشند [48-47، 23، 1]. سنجش روایی نیز نیازمند آگاهی از علم آمار و روشهای آماری است تا در دستیابی به مقدار واقعی پیامدها مفید واقع شود. بنابراین برنامهریزی در جهت طراحی و کاهش خطاهای غیر تصادفی در اندازهگیری میتواند به پایایی و روایی ابزار اضافه کرده و قدرت نتایج مطالعه را افزایش دهد. کم گزارش دهی و عدم گزارش روایی ممکن است به دلایلی از جمله کم بودن حجم نمونه، طراحی ضعیف مطالعه و یا کاهش منابع باشد [5]. همچنین، از آنجا که هدف نوشتار حاضر آشنایی محققین و دانشگاهیان با مفاهیم روایی و پایایی و شیوههای مختلف اندازهگیری آن است سعی شد تا به سادهترین وجه ممکن مطالب مورد نیاز با یک روال منظم و منطقی بیان گردد. لذا از ذکر فرمولهای پیچیده واریانس ضرایب پایایی و یا مفاهیم آماری مربوط به تحلیل عاملی صرف نظر شد.
نتیجهگیری
پایایی درجهای از ثبات نتایج طی زمان و قابلیت تکرار آنها میباشد که سنجش پایایی علاوه بر روش معمول آلفای کرونباخ با روشهای دیگر نیز قابل اندازهگیری است. در حالی که روایی درجهای از صحت نتایج میباشد و ابعاد گوناگونی دارد. لذا توجه محققین و پژوهشگران و دستاندرکاران نظام سلامت به ارائه نتایج و آمار دقیق و صحیح میتواند در نتیجه استفاده از سنجشهای پایا و قابل اعتماد به دست آید. سنجشهایی که علاوه بر کم کردن خطاهای تصادفی از خطای منظم نیز بتواند دوری کند.
تشکر و قدردانی
بدینوسیله از همکار محترم جناب آقای دکتر شهرام ارسنگ جنگ و مهندس محسن مختاری تشکر و قدردانی مینماییم.
References
[1] Cook DA, Beckman TJ. Current concepts in validity and reliability for psychometric instruments: theory and application. The American j of Med 2006; 119(2): 166, 7-16.
[7] Cuthbert SC, Goodheart GJ. On the reliability and validity of manual muscle testing: a literature review. Chiropractic & Manual Therapies 2007; 15(1): 4 doi:10.1186/1746-1340-15-4.
[8] Healy M, Perry C. Comprehensive criteria to judge validity and reliability of qualitative research within the realism paradigm. Qualit Mark Res: An int J 2000; 3(3): 118-26.
[9] Litwin MS. How to measure survey reliability and validity. Sage; 1995;
[10] Pearson Executive Office . PCAT Reliability and Validity 2015-2016 . San Antonio, Product Number 65685PCAT: 2012.
[12] Quinn TJ. Validity and Reliability of the Outdoor Education Practicum Questionnaire [microform] / Thomas James Quinn. [Washington, D.C.]: Distributed by ERIC Clearinghouse; 1998.
[13] Holbert RL, Lee J, Esralew S, Walther WO, Hmielowski JD, Landreville KD. Affinity for political humor: An assessment of internal factor structure, reliability, and validity. Humor. 2013;26(4):551-72
[16] . Wells CS, Wollack JA. An instructor’s guide to understanding test reliability. Testing & Evaluation Services publication, University of Wisconsin Retrieved January. 2003;4:2006.
[17] Carmines EG, Zeller RA. Reliability and validity assessment. Sage 1979.
[18] Seif AA. Evaluation and assessment of educational progeression. Agah Publication, Tehran, 1992
[21] Cuttance P, Ecob R. Structural modeling by example: Applications in educational, sociological, and behavioral research: Cambridge University Press, New york. 2009
[22] Gliem JA, Gliem RR, editors. Calculating, interpreting, and reporting Cronbach’s alpha reliability coefficient for Likert-type scales2003: Midwest Research-to-Practice Conference in Adult, Continuing, and Community Education.2005..
[23] Sechrest L. Reliability and validity Research Methods in Clinical Psychology 1984: 24-54.
[24] Gwet KL. Handbook of inter-rater reliability: The definitive guide to measuring the extent of agreement among raters. Advanced Analytics LLC 2014
[29] Ahmadi A, Ershad M, Givzadeh H, Mohammad-Beigi A. General physicians' knowledge about nutrition in Shiraz, Iran. Pakistan J of Biol Sci 2009; 12(13): 981-5.
[30] Bayati A, Beigi M, Salehi M. Depression prevalence and related factors in Iranian students. Pak J Biol Sci 2009; 12(20): 1371-5.
[33] Hassanzadeh J, Mohammadbeigi A, Eshrati B, Rezaianzadeh A, Rajaeefard A. Determinants of Inequity in Health Care Services Utilization in Markazi Province of Iran. Iran Red Crescent Med J 2013; 15(5): 363.
[37] DeVellis RF. Scale development: Theory and applications. Sage Publications 2011;
[40] Ghasemi V. Cronbach Coefficient Alpha and some of Its Specialties With Em phasis on Applications in Social Research. Humanities 2005; 19(2): 155-74.
[41] Guttman L. A basis for analyzing test-retest reliability. Psychometrika 1945; 10(4): 255-82.
[43] Tavakol M, Dennick R. Making sense of Cronbach's alpha. Int J Med Edu 2011; 2: 53.
[44] Sijtsma, K., On the use, the misuse, and the very limited usefulness of Cronbach’s alpha. Psychometrika 2009; 74(1): 107-20.
[45] George D, Mallery M. Using SPSS for Windows step by step: a simple guide and reference. Boston, MA: Allyn & Bacon 2003;
[48] Miller IW, Epstein NB, Bishop DS, Keitner GI. The McMaster Family Assessment Device: Reliability and Validity. J Marital and Family Therapy 1985; 11(4): 345-56.
[54] Kundel H, Polansky M. Measurement of observer agreement. Radiology 2003; 228: 303-8.
[55] Polit DF, Beck CT. The content validity index: are you sure you know what's being reported? Critique and recommendations. Research in Nursing & Health 2006; 29(5): 489-97.
[56] Yaghmale F. Content validity and its estimation. J Med Edu 2009; 3(1): 25-7.
[57] Heravi-Karimooi M, Anoosheh M, Foroughan M, Sheykhi MT, Hajizadeh E. Designing and determining psychometric properties of the Domestic Elder Abuse Questionnaire. Iran J Ageing 2010; 5(15): 7-21.
[59] Lawshe CH. A Qualitative Approach to Content Validity. Personnel Psychology 1975; 28(4): 563-75.
[66] Tabachnick BG, Fidell L. Using Multivariate Statistics: New York: Harper & Row.; 2012.
[67] Tabachnick BG, Fidell LS, Osterlind SJ. Using multivariate statistics New York: Harper & Row 2001.
[68] Zare-Chahoki M. Multivariate Analysis Method In SPSS Software 2010. Tehran: Tehran University; Available at URL: http://utcan.ut.ac.ir/-member/syllabus/ mazare/multivariate.pdf
[69] Hair JF. Multivariate data analysis. Upper Saddle River, NJ Pearson Prentice Hall, New York; 2006.
[70] Comrey, Andrew L., and Howard B. Lee. A first course in factor analysis. Academic Press, New York, 2013.
Validity and Reliability of the Instruments and Types of MeasurmentS in Health Applied Researches
A. Mohammadbeigi[4] , N. Mohammadsalehi[5], M. Aligol[6]
Received: 28/08/2014 Sent for Revision: 26/01/2015 Received Revised Manuscript: 01/02/2015 Accepted: 25/02/2015
Background and Objective: Nowadays, by extension of research in medical and social sciences, education and managing most of outcomes measurers by cheklists,questionnaires, scales and educational tests or raters evaluations to quantify the human behaviors. Reliability and validity are the most important indexes in measurement to obtain true values. Enough knowledge and understanding the reliability and validity are important principle of methodology in study designing. Unfortunately, psychometric aspects of measures have not been applied in some situations and studies. The objective of current document is to show the concepts of reliability, validity, psychometric aspects and their types of measurements for researchers.
Key words: Validity, Reliability, Psychometric , Cranach's Alpha, Kappa Coefficient, Factor Analysis
Funding: This study was funded by Qom University of Medical Sciences.
Ethical approval:The Ethics Committee of Qom University of Medical Sciences approved the study.
Conflict of interest: none declared.
How to cite this article. Mohammadbeigi A, Mohammadsalehi N, Aligol M. Validity and Reliability of the Instruments and Types of Measurment in Health Applied Researches. J RafsanjanUniv Med Sci 2015; 13(10): 1153-70. [Farsi]
[1]- استادیار اپیدمیولوژی، گروه اپیدمیولوژی و آمار زیستی، مرکز تحقیقات سیاستگذاری و ارتقاء سلامت، دانشکده بهداشت، دانشگاه علوم پزشکی و خدمات بهداشتی درمانی قم، قم، ایران
تلفن: 37842228-025، دورنگار: 37842228-025، پست الکترونیکی: beigi60@gmail.com
[2]- کارشناس ارشد اپیدمیلوژی، مرکز تحقیقات سیاستگذاری و ارتقاء سلامت، دانشگاه علوم پزشکی و خدمات بهداشتی درمانی قم، قم، ایران
[3]- دانشجوی دکتری آموزش بهداشت، دانشکده بهداشت، دانشگاه علوم پزشکی و خدمات بهداشتی درمانی شهید بهشتی، تهران، ایران
(Corresponding Author), Tel: (025)37842228, Fax: (025) 37842228, E-mail: Beigi60@gmail.com
[5]- MSC of Epidemiology, Health Policy and Promotion Research Center, Qom University of Medical Sciences, Qom, Iran
[6]- PhD Student of Health Education and Promotion, Shahid Beheshti University of Medical Sciences, Tehran, Iran
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |