سنجش

سنجش و اندازه گیری در علوم رفتاری

سنجش

سنجش و اندازه گیری در علوم رفتاری

مولفه های سنجش انطباقی (Computerized Adaptive Testing) CAT


1.       بانک سوال مدرج

2.       نقطه آغاز یا سطح ورودی

3.       الگوریتم انتحاب سوال

4.       روش نمره دهی

5.       ملاک خاتمه

 

بانک سوال مدرج

باید یک بانک سوال در CAT وجود داشته باشد تا از آن انتخاب شود. این بانک باید با یک مدل روانسنجی  مدرج شود و پایه ای برای مولفه های دیگر است. معمولاً از نظریه سوال-پاسخ به عنوان مدل روانسنجی استفاده می شود. یکی از دلایل محبوبیت این نظریه این است که در این نظریه افراد و سوال ها را در مقیاسی یکسان، که در مباحث مربوط به انتخاب سوال مفید است، قرار می دهد.

 

نقطه شروع

در CAT سوالات مبتنی بر عملکرد آزمودنی انتخاب می شوند. با این وجود وقتی هنوز هیچ سوالی اجرا نشده است CAT قادر به برآورد توانایی آزمودنی نیست. بنابراین برآورد اغازین دیگری برای توانایی آزمودنی مورد نیاز است. اگر در مورد آن چه آزمودنی می داند اطلاهات قبلی در دسترس باشد میتوان از آن ها استفاده کرد ولی اغلب CAT فرض می کند که آزمودنی ها دارای توانایی متوسطی هستند از این رو سوال اول اغلب دارای ضریب دشواری متوسطی است.

 

الگوریتم انتخاب سوال

همان طور که قبلا گفته شد نظریه سوال-پاسخ آزمودنی ها و سوالات را در یک مقیاس یکسان قرار می دهد. بنابراین اگر CAT دارای برآورد توانایی آزمودنی است قادر است سوال را انتخاب کند که برای آن برآورد مناسب ترین است. از نظر فنی این کار از طریق انتخاب سوالی با بیش ترین اطلاعات در آن نقطه انجام می شود. اطلاعات تابعی از پارامتر تشخیص سوال، واریانس شرطی و پارامتر حدس (در صورت استفاده) است.

 

روش نمره دهی

پس از اجرای یک سوال، CAT برآوردش از سطح توانایی آزمودنی را به روز می کند. اگر آزمودنی به سوالات به طور صحیح پاسخ دهد، احتمالاً CAT توانایی او را کمی بیش­تر از در نظر می­گیرد و برعکس. این کار با استفاده تابع سوال پاسخ در نظریه سوال-پاسخ برای به دست آوردن یک تابع درستنمایی توانایی آزمودنی انجام می شود. دو روش برای این کار عبارتند از بیشینه درستنمایی و برآورد بیزی. در برآورد بیزی برای توانایی آزمودنی یک تابع پیشین و بیشینه تابع پسین فرض می شود. اگر تابع پیشین یکنواخت (f(x)=1)  فرض شود، بیشینه احتمال معادل بیشینه بیزی یک برآورد پسین است. بیشینه احتمال به طور مجانبی غیر اریب است. اما نمی تواند تتا را برای بردار پاسخ غیر آمیخته (همه درست یا همه غلط) برآورد کند در این موارد موقتاً روش بیزی مورد استفاده قرار می گیرد.

 

ملاک پایانی

الگوریتم CAT به گونه ­ای طراحی شده است تا مکرراً سوالات را اجرا کند و برآورد توانایی آزمودنی را به روز کند. این کار تا زمانی ادامه پیدا می کند که بانک سوال خسته شود. اغلب زمانی آزمون به پایان می رسد که خطای استاندارد اندازه گیری آزمودنی کم­تر از مقدار خاصی شود که کاربر تعیین کرده است. ملاک­های پایانی دیگر برای اهداف مختلف آزمون وجود دارد مثلاً آیا آزمون به منظور تشخیص این که آزمودنی در آزمونی قبول یا رد می شود، طراحی شده است یا هدف آزمون برآورد دقیق توانایی آزمودنی است. با هدف رد-قبول آزمودنی، ملاک پایانی و الگوریتم نمره ­دهی باید به کار گرفته شود که به جای برآورد نقطه ­ای توانایی، آزمودنی را در یک طبقه قرار می دهد. رویکرد فاصله اطمینان نیز مورد استفاده قرا می گیرد. در این رویکرد بعد از اجرای هر سوال، الگوریتم احتمال این که نمره واقعی آزمودنی بالاتر یا پایین تر از نمره قبولی است را تعیین می کند. مثلاً ممکن است الگوریتم تا وقتی که فاصله اطمینان 95% نمره واقعی شامل نمره قبولی نشود، ادامه پیدا کند. در آن نقطه سوالات بیشتری مورد نیاز نیست زیرا تصمیم قبول-رد قبلاً 95% دقیق بوده است با این فرض که مدل های روانسنجی زیربنایی سنجش انطباقی با آزمودنی و آزمون برازش داشته باشد. این رویکرد، رویکرد سنجش انطباقی مهارت نامیده می شود اما می توان آن را در انتخاب سوال غیر انطباقی و موقعیت های طبقه بندی دو یا بیش از 2 نمره برش نیز به کار برد. به طور کلی الگوریتم ها به گونه ای طراحی شده اند که دارای طول آزمون حداقلی یا حداکثری (یا زمان اجرای حداقلی یا حداکثری)  باشند. در غیر این صورت ممکن است برای یک آزمودنی با توانایی بسیار نزدیک به نمره برش هر سوال در بانک سوال بدون این که الگوریتم تصمیم بگیرد، اجرا شود. الگوریتم انتخاب سوال مورد استفاده بستگی به ملاک پایانی دارد. به حداکثر رساندن اطلاعات در نمره برش برای SPRT مناسب تر است زیرا این رویکرد تفاوت در احتمال های مورد استفاده در نسبت درستنمایی است. به حداکثر رساندن اطلاعات در برآورد توانایی برای رویکرد فاصله اطمینان مناسب تر است زیرا خطای استاندارد شرطی اندازه گیری به حداقل می رساند. این کار پهنای فاصله اطمینان مورد نیاز برای طبقه بندی را کاهش می دهد. 

عناوین پایان نامه های دفاع شده دکترا سنجش

امروز دومین پایان نامه دکترا سنجش آموزش دانشگاه تهران و هشتمین پایان نامه در رشته سنجش با مشخصات زیر دفاع شد:


ایزانلو، بلال. (1393). مقایسه کارایی مدلهای جبرانی و غیر جبرانی چند بعدی نظریه سوال- پاسخ در برآورد پارامترهای سوالها و افراد: مورد دروس پایه آزمون سراسری دانشگاهها. به راهنمایی دکتر عباس بازرگان و دکتر ولی الله فرزاد و به مشاوره دکتر ناهید صادقی و دکتر امیر کاووسی و به داوری دکتر علیرضا کیامنش و دکتر الهه حجازی.


پایان نامه هایی که قبلاً دفاع شده است در لینک زیر قابل مشاهده است:

http://assessment.blogsky.com/1393/01/13/post-41/%D8%B9%D9%86%D8%A7%D9%88%DB%8C%D9%86-%D9%BE%D8%A7%DB%8C%D8%A7%D9%86-%D9%86%D8%A7%D9%85%D9%87-%D9%87%D8%A7%DB%8C-%D8%AF%D9%81%D8%A7%D8%B9-%D8%B4%D8%AF%D9%87-%D8%AF%DA%A9%D8%AA%D8%B1%D8%A7-%D8%B3%D9%86%D8%AC%D8%B4