سنجش

سنجش و اندازه گیری در علوم رفتاری

سنجش

سنجش و اندازه گیری در علوم رفتاری

مولفه های سنجش انطباقی (Computerized Adaptive Testing) CAT


1.       بانک سوال مدرج

2.       نقطه آغاز یا سطح ورودی

3.       الگوریتم انتحاب سوال

4.       روش نمره دهی

5.       ملاک خاتمه

 

بانک سوال مدرج

باید یک بانک سوال در CAT وجود داشته باشد تا از آن انتخاب شود. این بانک باید با یک مدل روانسنجی  مدرج شود و پایه ای برای مولفه های دیگر است. معمولاً از نظریه سوال-پاسخ به عنوان مدل روانسنجی استفاده می شود. یکی از دلایل محبوبیت این نظریه این است که در این نظریه افراد و سوال ها را در مقیاسی یکسان، که در مباحث مربوط به انتخاب سوال مفید است، قرار می دهد.

 

نقطه شروع

در CAT سوالات مبتنی بر عملکرد آزمودنی انتخاب می شوند. با این وجود وقتی هنوز هیچ سوالی اجرا نشده است CAT قادر به برآورد توانایی آزمودنی نیست. بنابراین برآورد اغازین دیگری برای توانایی آزمودنی مورد نیاز است. اگر در مورد آن چه آزمودنی می داند اطلاهات قبلی در دسترس باشد میتوان از آن ها استفاده کرد ولی اغلب CAT فرض می کند که آزمودنی ها دارای توانایی متوسطی هستند از این رو سوال اول اغلب دارای ضریب دشواری متوسطی است.

 

الگوریتم انتخاب سوال

همان طور که قبلا گفته شد نظریه سوال-پاسخ آزمودنی ها و سوالات را در یک مقیاس یکسان قرار می دهد. بنابراین اگر CAT دارای برآورد توانایی آزمودنی است قادر است سوال را انتخاب کند که برای آن برآورد مناسب ترین است. از نظر فنی این کار از طریق انتخاب سوالی با بیش ترین اطلاعات در آن نقطه انجام می شود. اطلاعات تابعی از پارامتر تشخیص سوال، واریانس شرطی و پارامتر حدس (در صورت استفاده) است.

 

روش نمره دهی

پس از اجرای یک سوال، CAT برآوردش از سطح توانایی آزمودنی را به روز می کند. اگر آزمودنی به سوالات به طور صحیح پاسخ دهد، احتمالاً CAT توانایی او را کمی بیش­تر از در نظر می­گیرد و برعکس. این کار با استفاده تابع سوال پاسخ در نظریه سوال-پاسخ برای به دست آوردن یک تابع درستنمایی توانایی آزمودنی انجام می شود. دو روش برای این کار عبارتند از بیشینه درستنمایی و برآورد بیزی. در برآورد بیزی برای توانایی آزمودنی یک تابع پیشین و بیشینه تابع پسین فرض می شود. اگر تابع پیشین یکنواخت (f(x)=1)  فرض شود، بیشینه احتمال معادل بیشینه بیزی یک برآورد پسین است. بیشینه احتمال به طور مجانبی غیر اریب است. اما نمی تواند تتا را برای بردار پاسخ غیر آمیخته (همه درست یا همه غلط) برآورد کند در این موارد موقتاً روش بیزی مورد استفاده قرار می گیرد.

 

ملاک پایانی

الگوریتم CAT به گونه ­ای طراحی شده است تا مکرراً سوالات را اجرا کند و برآورد توانایی آزمودنی را به روز کند. این کار تا زمانی ادامه پیدا می کند که بانک سوال خسته شود. اغلب زمانی آزمون به پایان می رسد که خطای استاندارد اندازه گیری آزمودنی کم­تر از مقدار خاصی شود که کاربر تعیین کرده است. ملاک­های پایانی دیگر برای اهداف مختلف آزمون وجود دارد مثلاً آیا آزمون به منظور تشخیص این که آزمودنی در آزمونی قبول یا رد می شود، طراحی شده است یا هدف آزمون برآورد دقیق توانایی آزمودنی است. با هدف رد-قبول آزمودنی، ملاک پایانی و الگوریتم نمره ­دهی باید به کار گرفته شود که به جای برآورد نقطه ­ای توانایی، آزمودنی را در یک طبقه قرار می دهد. رویکرد فاصله اطمینان نیز مورد استفاده قرا می گیرد. در این رویکرد بعد از اجرای هر سوال، الگوریتم احتمال این که نمره واقعی آزمودنی بالاتر یا پایین تر از نمره قبولی است را تعیین می کند. مثلاً ممکن است الگوریتم تا وقتی که فاصله اطمینان 95% نمره واقعی شامل نمره قبولی نشود، ادامه پیدا کند. در آن نقطه سوالات بیشتری مورد نیاز نیست زیرا تصمیم قبول-رد قبلاً 95% دقیق بوده است با این فرض که مدل های روانسنجی زیربنایی سنجش انطباقی با آزمودنی و آزمون برازش داشته باشد. این رویکرد، رویکرد سنجش انطباقی مهارت نامیده می شود اما می توان آن را در انتخاب سوال غیر انطباقی و موقعیت های طبقه بندی دو یا بیش از 2 نمره برش نیز به کار برد. به طور کلی الگوریتم ها به گونه ای طراحی شده اند که دارای طول آزمون حداقلی یا حداکثری (یا زمان اجرای حداقلی یا حداکثری)  باشند. در غیر این صورت ممکن است برای یک آزمودنی با توانایی بسیار نزدیک به نمره برش هر سوال در بانک سوال بدون این که الگوریتم تصمیم بگیرد، اجرا شود. الگوریتم انتخاب سوال مورد استفاده بستگی به ملاک پایانی دارد. به حداکثر رساندن اطلاعات در نمره برش برای SPRT مناسب تر است زیرا این رویکرد تفاوت در احتمال های مورد استفاده در نسبت درستنمایی است. به حداکثر رساندن اطلاعات در برآورد توانایی برای رویکرد فاصله اطمینان مناسب تر است زیرا خطای استاندارد شرطی اندازه گیری به حداقل می رساند. این کار پهنای فاصله اطمینان مورد نیاز برای طبقه بندی را کاهش می دهد. 

نظرات 2 + ارسال نظر
رویا پنج‌شنبه 5 تیر 1393 ساعت 14:46

سلام
ممنون از اینکه وقت گذاشتید و به سوال من جواب دادید
موفق باشید

خواهش می کنم.

موفق باشید.

رویا سه‌شنبه 27 خرداد 1393 ساعت 23:54

لطفا بفرمائید منظور از field-test در سنجش انطباقی چیست؟

سلام.
فیلد تست کردن صرفا جز سنجش انطباقی نیست بلکه یکی از مراحل آزمون سازی است. فیلد تست کردن شبیه پایلوت استادی است. فیلد تست کردن یعنی:
A field test (as defined by the National Council on Measurement in Education) is a test administration used during the test development process to check on the quality and appropriateness of test items, administration procedures, scoring, and/or reporting. Basically, this means that an “item” / test question (including reading passages, essay prompts) itself is tested, enabling educators and test developers to make sure that an item does measure what it is intended to measure—that the questions provide an accurate, fair and valid representation of what students know and can do.
Students’ scores on these field-test items are only used to evaluate how well the items or test questions capture the knowledge and skills they are designed to measure.
Field tests are done to help ensure questions used in upcoming standardized tests that count are fair for all students, of high quality and rigorous enough to comply with professional standards. It’s important for a state to know that questions, prompts, reading passages, or other test elements are worthy of being used to assess skills and knowledge appropriately.
The goal of field testing is to make sure all questions are free from bias, are aligned to academic standards of your state and function appropriately.
two approaches to field tests
Generally, there are two approaches to field tests: embedding questions within assessments that count for students and standalone field-testing. In both cases, any question deemed unfair after field testing is thrown out and won’t appear on any future assessments.
Embedded Field Tests
Students take embedded field-test questions at the same time they take the rest of their standardized test. This is typically done for multiple-choice assessments. Whenever possible, states embed field-test questions in multiple forms of “live” tests so that these field-test questions are randomly distributed to a representative student population. Experience shows that these procedures can give the state an appropriate amount of data to ensure fairness in a very efficient manner. The embedded field-test questions are not counted on a student’s score.
Standalone Field Tests
Sometimes separate field tests are necessary due to factors like test structure (i.e., tests with open-ended questions, tests that required students to perform tasks or lengthy essays), a small student population, or method of test delivery. States administer these separate field tests at a different time than the state assessments that are reported publicly. As with embedded field-test items, a separate field test does not count toward student scores.
Pilot Testing and Field Testing
In test development projects of all kinds, the trialing of new items is typically broken up into two stages, Pilot Testing and Field Testing.
Pilot testing is a small-scale trial, where a few examinees take the test and comment on the mechanics of the test. They point out any problems with the test instructions, instances where items are not clear, and formatting and other typographical errors and/or issues. In the case of computer-based testing, pilot-test examinees also comment on any issues with the computer interface. Once all issues with the test items and forms have been addressed, the tests are ready for large-scale field testing.
The primary purpose of field testing is to construct an initial picture of test validity and reliability. The test is administered to an adequate number of examinees (this number varies depending on the type of statistical analyses that will be carried out), and the raw data is used in the psychometric analysis.

امکان ثبت نظر جدید برای این مطلب وجود ندارد.