Теорія рішення вимірів
Блог предназначен для публикации научных статей и материалов

Теорія рішення вимірів

Лоуренс М. Rudner
Graduate Management Admission Council і LMP Associates

Розробка під назвою Wald (1947), вперше застосований до вимірювання Кронбаха і Глезер (1957), і в даний час широко використовуються в машинобудуванні, сільському господарстві, і обчислювальної техніки, теорії прийняття рішень забезпечує просту модель для аналізу категоріальних даних. Це найбільш застосовні у вимірі, коли мета полягає в класифікації випробуваних до однієї з двох категорій, наприклад, придатний/не придатний або майстер/без господаря.

Від пілотного тестування, однією оцінки

  1. Частка майстра і не майстри в популяції, і
  2. Умовних ймовірностей випробовуваних в кожній державі майстерність відповідає правильно для кожного пункту.

Після випробування вводять, можна обчислити (на основі відповідей випробуваного і пілот даних):

  1. Ймовірність відповіді картини випробуваного для майстрів і для не-майстрів
  2. Імовірність того, що випробуваний є майстром, і ймовірність того, що випробуваний не є господарем.

Цей підручник містить огляд теорії вимірювань рішення. Ключові поняття представлені й проілюстровані за допомогою двійкового класифікації (придатний / не придатний) і тест зразка на три пункти тестування. Інтерактивний підручник дозволяє змінювати результати пілота, відповідь випробуваний зразок, і структура витрат. Різні правила для класифікації випробуваних потім подаються разом з базовою розрахунків. Швидка посилання на інтерактивний інструмент знаходиться у верхній частині цієї сторінки. Інтерактивний інструмент також надає пропоновані питання і відповіді, які допоможуть вам краще зрозуміти, що ви розглядаєте. Інструмент використовує Java, JavaScript і листи Каскад Стиль і був розроблений з використанням Internet Explorer. Він прекрасно працює з AOL 7.0.

Необхідність

Класична теорія вимірювання і теорія пункту відповідь стосуються, насамперед ранжувати випробовуваних по можливості континууму. Ці моделі турбує, наприклад, при диференціації піддослідних на 90-й і 92-й процентилі. Але часто зацікавлені в класифікації випробуваних в одному з кінцевого числа дискретних категорій, такі як залік / незалік або досвідченим / основні / нижче основної. Це просто результат і прості моделі вимірювань повинно бути достатньо. Теорія вимірів Рішення є одним з таких простих інструментів.

Теорія вимірів рішення потрібна тільки один ключ припущення - про те, що елементи є незалежними. Таким чином, випробування домену не повинні бути одновимірними, випробуваного здібності не повинні бути розподілені нормально, і не потрібно бути пов'язана з підгонки даних на теоретичну модель, як в пункті теорія відповіді (IRT) або У більшості прихованих моделей класу. Ця модель приваблива як механізм маршрутизації для інтелектуальних навчальних систем, для кінця блоку іспитів, для адаптивного тестування і як засіб швидкого отримання класифікації пропорціях на інші іспити. Дуже небагато випробувані льотчик-випробувач необхідні, і, за дуже рідкісним пунктів, точність класифікації може перевищувати пункт теорії відповідь. Враховуючи ці привабливі риси, це дивно, що ця модель не приваблює широку увагу у вимірі співтовариства.

Ізольовані елементи теорії прийняття рішень з'явилися спорадично у вимірі літератури. Ключові статті в літературі майстерності тестування 1970-х років використовується теорія прийняття рішень (Hambleton і Новик, 1973; Huynh, 1976; ван дер Лінден і Mellenbergh, 1977) і повинні бути переглянуті у світлі виміру сучасних проблем. Льюїс і Шихан (1990) та інші використовували теорії прийняття рішень для адаптивного вибору пунктів меню. Кінгсбері і Weiss (1983), Reckase (1983), і спрей і Reckase (1996) використовували теорії прийняття рішень, щоб визначити коли потрібно зупинитися тестування. Більшість досліджень до теперішнього часу застосовується теорія прийняття рішень в testlets або тест батарей або в якості доповнення до пункту теорії відповідей і конкретних моделей класу прихованою. Відомі статті Macready і Дейтоні (1992), Вос (1997), і Уелч і Фрік (1993) ілюструють менш поширені на рівні елемента застосування теорії прийняття рішень розглядаються у цьому підручнику.

Теорія

Огляд і позначення

 

Мета полягає в тому, щоб сформувати краще припущення щодо стану майстерності (класифікації) окремих випробовуваних на основі пункту випробуваного відповідей, апріорної інформації пункт, і апріорі пропорції населення класифікації. Таким чином, модель складається з чотирьох компонентів: 1) можливих станів майстерності для випробуваного, 2) каліброваних елементів, 3) відповідь картини людини, і 4) рішення, які можуть бути утворені про випробуваного.

Є K можливим майстерності держав, які беруть на тк значення. У разі пройшов / не пройшов тестування, є два можливі стани і K = 2. Один зазвичай знає, апріорі, приблизний пропорції для населення всіх випробовуваних в кожній державі майстерності.

Другий компонент являє собою набір елементів, для яких ймовірність кожного можливого спостереження, як правило, правильно чи неправильно, враховуючи майстерність кожної держави також відомі апріорі,

Відповіді на набір елементів N утворюють третій компонент. Кожен елемент вважається дискретної випадкової величини стохастично, пов'язаних з майстерністю держав і реалізуються спостережувані значення Zn,. Кожен випробовуваний має відповіді вектор, г, що складається з z1, z2, ... Zn. Тільки дихотомически забив елементи розглядаються в цій статті.

Останній компонент є рішення простору. Можна сформувати будь-яку кількість D рішень, заснованих на даних. Як правило, хочеться вгадати майстерності стані і не буде D = K рішень. З адаптивним або послідовне тестування, рішення буде продовжувати тестування буде доданий і, отже, не буде D = K +1 рішень. Кожне рішення буде позначатися DK.

Тестування починається з часткою випробовуваних в популяції, які знаходяться в кожній з категорій, K і частка випробовуваних з кожною категорією, які відповідають правильно. Населення пропорцій може бути визначена різними способами в тому числі від попереднього тестування, перетворення існуючої оцінки, існуючих класифікацій, і судження. У відсутність інформації рівних апріорних можна припустити. Пропорціях, які відповідають правильно, може бути отримана з невеликого тест-пілота з участю досліджуваних, які вже були класифіковані або перетворення існуючих даних. Після того як ці набори настоятелі доступні, елементи вводяться, відповідей (z1, z2, ... Zn) спостерігається, а потім класифікаційного рішення, DK, проводиться на основі відповідей на ці елементи.

Пропорції з льотчиком-випробувачем, розглядаються як імовірності і використовуються наступні позначення:

Настоятелі

  • р (МК) - імовірність того, що випадково обраний випробуваним мають майстерності стан тк
  • р (Zn | MK) - ймовірність відповіді Zn дано до-й майстерності стані

спостереження

  • г - реакція індивіда вектор z1, z2, ..., Zn, де цзи 0 (0,1)

Оцінка майстерності стану випробуваного формується за допомогою настоятелів і спостереження. По теоремі Байеса,

Апостеріорна ймовірність P (MK | г), що випробуваний є майстерності стан тк враховуючи його відповідь вектора дорівнює добутку постійної нормалізації (с), то ймовірність відповіді вектор даного МК, і апріорної ймовірності класифікації. Для кожного випробуваного, тобто K ймовірності, по одній для кожної держави майстерності. Нормалізацію постійної в (1),

запевняє, що сума апостеріорні ймовірності дорівнює 1,0.

Припускаючи, місцеві незалежності,

Тобто, ймовірність відповіді вектора дорівнює добутку умовних ймовірностей пункт відповіді. У цьому уроці, кожен відповідь є або право (1) чи ні (0) і P (z1 = 0 | тк) = 1 - P (z1 = 1 | мК).

Три основні поняття з теорії прийняття рішень обговорюватимуться в наступному:

1. правила прийняття рішень - альтернативні процедури для класифікації випробуваних на основі їх моделей реагування,

2. послідовне тестування - альтернативні процедури для адаптивного вибору елементів на основі шаблону відповідей осіб, а

3. послідовного вирішення - альтернативні процедури для визначення доцільності продовження випробувань.

Модель показана тут з розгляду двох можливих m1 майстерності держави і м2 та два можливі рішення d1 і d2, які є правильні рішення для M1 і M2 відповідно. У прикладах використовується три елементи тесту з пунктом статистики наведені в таблиці 1. Крім того, також заснований на даних льотчик-випробувач, апріорні ймовірності класифікації P (m1) = 0,2 і P (m2) = 1-P (m1) = 0.8.In наприклад, вектор відгуку випробуваного є [1,1,0 ].

 

Таблиця 1: Умовні ймовірності правильної відповіді, P(zi=1|mk)

 

Пункт 1

Пункт 2

Пункт 3

Майстри (m1)

.6

.8

.6

Немайстри (m2)

.3

.6

.5

 

Правила прийняття рішень

Завдання полягає в тому, щоб зробити краще припущення щодо класифікації випробуваного (майстер, не майстер) на основі даних в таблиці 1 і вектор відгуку випробуваного. З (2), ймовірності вектора Z = [1,1,0], якщо випробуваний є майстер 0,6 * 0,8 * 0,4 = 0,19 і 0,09, якщо він не є господарем. Тобто, P (г | m1) = 0,19 і Р (г | м2) = 0,09. Нормалізована, Р (г | m1) = 0,68 і Р (г | м2) = 0,32.

Достатньої статистики для прийняття рішень є відношення правдоподібності

який для прикладу L (г) = .09/.19 = 0,47. Це є достатньою статистикою, тому що всі правила прийняття рішень можна розглядати як тест порівняння L (г) проти значення критерію 8.

Значення 8 відображає обраних підходів і суджень про відносну важливість різних типів класифікації помилки.

 

Максимальної правдоподібності рішення критерію

Це найпростіше рішення підхід і грунтується виключно на умовну ймовірність відповіді векторів дав кожному з держав майстерності, тобто Р (г | m1) і Р (г | м2). Концепція полягає у виборі майстерності заявляють, що є найбільш імовірною причиною відповідь вектор і можна сформулювати так:

Враховуючи набір елементів відповіді г, прийняти рішення DK, якщо вона, швидше за все, тк генерується р.

Виходячи з цього критерію, можна було б класифікувати як випробуваний майстра - швидше за все, класифікація, так як Р (г | m1) = 0,68> Р (г | м2) = 0,32.

Цей критерій не враховує попередню інформацію про пропорції майстра і не майстри в популяції. Це рівнозначно тому, передбачається, населення настоятелі рівні. При Наприклад, кілька випробуваних є майстрами, P (тк) = 0,20. Враховуючи, що умовна ймовірність відповіді векторів досить близькі, ця класифікація правило, не може призвести до хорошим рішенням.

Мінімальна вірогідність помилки критерію рішення

У двійковому випадку рішення двох типів можливі помилки - вирішуйте d1, коли m2 правда це чи вирішити d2, коли m1 це правда. Якщо хтось думає, m1 як нульову гіпотезу, то в термінах статистичної теорії, ймовірність прийняття рішення людиною є майстром, d1, коли дійсно ця людина не є господарем м2, є знайомі рівень значимості ", і P (d2 | м2) потужність критерію, $ коли обидва типи помилок однаково дорого, це може бути бажав, щоб максимізувати точність або зведення до мінімуму загального ймовірність помилки, Пе Цей критерій можна сформулювати так: ..

Враховуючи набір елементів відповіді г, виберіть рішення регіонах, які мінімізують загальну ймовірність помилки.

Цей критерій іноді називають критерієм ідеального спостерігача. У двійковому випадку, Pe = P (d2 | m1) + P (d1 | м2) і критерій відношення правдоподібності в (3) працює з

При Наприклад, 8 = 0,25 і рішення d2 - не господар.

Максимальна апостеріорна (MAP) рішення критерію

Критерієм максимуму імовірності рішення використовувалися тільки ймовірність відповіді вектор. Мінімальна вірогідність помилки критерію також використання попереднього класифікації ймовірностей P (M1) і P (m2). MAP інший підхід, який використовує наявну інформацію:

 
Враховуючи набір елементів відповіді г, вирішити DK, якщо тк є найбільш вірогідним майстерності держави.

Іншими словами,

Так як з рівняння (2), P (тк | г) = С Р (г | МК) P (тк), MAP еквівалентна мінімальної ймовірності помилки критерієм рішення.

Байєсівського критерію ризику

Істотною перевагою рамках теорії прийняття рішень є те, що можна включити рішення видатків в аналізі. За цими критеріями, витрати відносяться на кожен правильні і неправильні рішення, а потім мінімізувати загальну середню витрати. Наприклад, помилкові негативи можуть бути в два рази так погано, як помилкових спрацьовувань. Якщо CIJ є вартість рішення, коли ді-т вірно, то очікувана або середня вартість Б

B = (C11 P (d1 | m1) + C21 P (d2 | m1)) P (m1) + (C12 P (d1 | м2) + c22 P (d2 | m2)) P (м2)

і критерій може бути сформульований

Враховуючи набір елементів відповіді г і витрати, пов'язані з кожним рішенням, виберіть DK, щоб мінімізувати загальні очікувані витрати.

Протягом двох держав майстерності, загальна очікувана вартість може бути зведене до мінімуму за допомогою тесту відносини правдоподібності в (2) з

Це також називається критерієм мінімуму втрат і оптимального критерію рішення. Якщо витрати c11 = c22 = 0, c12 = c21 = 1, то B ідентичні Pe, і цей підхід ідентична мінімальної ймовірності помилки і MAP. При c11 = c22 = 0, c21 = 2, с12 = 1, і вибірки даних, 8 = 0,50 і рішення d2 - не господар.

Адаптивне тестування

Замість того, щоб класифікаційного рішення для індивідуального після введення фіксованого числа елементів, можна послідовно вибрати елементи для максимальної інформації, оновлення оцінок імовірності станів майстерність класифікації, а потім оцінити, чи є достатньо інформації, щоб припинити тестування. У цьому вимірі часто називають адаптивними або індивідуальні випробування. У статистиці це називається послідовне тестування.

На кожному кроці, апостеріорні ймовірності класифікації р (тк | г) розглядаються як оновлюватися до ймовірності р (МК) і використовується, щоб допомогти визначити наступний пункт, який можна вводити. Для ілюстрації теорії прийняття рішень послідовних випробувань, знову розглянемо ситуацію, для якої існує два можливих стани майстерності M1 і M2 і використовувати пункт статистики в таблиці 1. Припустимо, випробуваний відповів правильно на перший елемент, і завдання полягає у виборі, який з двох елементів, що залишилися управління наступному.

Після відповідає правильно на перший елемент, нинішній оновлений ймовірності того, майстер 0,6 * 0,2 / (0,6 * 0,2 + 0,3 * 0,8) = 0,33, а ймовірність бути без господаря. 66 з формули (1).

В даний час ймовірність відповіді правильно це

Застосовуючи (5), поточна ймовірність правильної відповіді на пункт 2, P (z2 = 1) = .8 * .33 + .6 * .66 = .66, а для пункту 3, P (z3 = 1) =. 53. Нижче наведені деякі підходи до визначення, яка з цих двох елементів управління наступному.

Мінімальна очікувана вартість

Цей підхід визначає оптимальний елемент можна вводити як наступний елемент з в низькій очікуваній вартості. Рівняння (4) забезпечує вирішення вартості в залежності від класифікації ймовірностей. Якщо С11 = С22 = 0, то

B=c21 P(d2|m1) P(m1) + c12 P(d1|m2) P(m2)

У двійковому випадку рішення, вірогідність прийняття неправильного рішення є одним мінусом ймовірність прийняття правильного рішення і ймовірності прийняття правильного рішення по визначенню, апостеріорні ймовірності наведені в (1). Таким чином, при c12 = c21 = 1, то поточна вартість Байєса В = 1 * (1-.33) * .33 + 1 * (1-.66) * .66 = .44.

Мінімальна очікувана вартість часто асоціюється з послідовним випробуванням і був застосований для вимірювання проблеми Льюїса і Шихана (1980), Макреді і Дейтоні (1992), Вос (1997) та інші.

Наступні кроки можуть бути використані для розрахунку очікуваної вартості для кожного елемента.

  1. Припустимо на хвилину, що випробуваний буде реагувати правильно. Обчислення апостеріорних ймовірностей використовуючи (1), а потім витрат з використанням (6).
  2. Припустимо, що випробуваний буде відповідати неправильно. Обчислення апостеріорних ймовірностей використовуючи (1), а потім витрат з використанням (6).
  3. Помножте вартість на кроці 1 на ймовірність правильної відповіді на пункт
  4. Помножте вартість з кроку 2 на ймовірність правильної реакції на пункт
  5. Додати значення з кроків 3 і 4.

Таким чином, очікувана вартість являє собою суму витрат на кожну відповідь, зважених за ймовірності того, що відповіддю. Якщо випробуваний відповідає правильно пункту 2, то апостеріорна ймовірність того, щоб бути майстром буде (0,8 * 0,33) / (0,8 * 0,33 + 0,6 * 0,66) = 0,40 і пов'язаних з ними витрат складе 1 * (1-.40) * .40 +1 * (1-.60) * .60 = .48. Якщо випробуваний відповіді неправильно, то апостеріорна ймовірність того, щоб бути майстром буде (.2 * .33) / (.2 * .33 + .4 * .66) = .20 і пов'язані з цим витрати буде 1 * (1 - .20) * .20 +1 * (1-.80) * .80 = .32. Так як ймовірність правильної відповіді з (5), 0,66 передбачувані витрати на пункт 2, .66 * .48 + (1-.66) * .32 = .42.

Вартість пункту 3, 0,47, якщо відповідь є правильним і неправильним, якщо 0,41. Таким чином, очікувані витрати за пунктом 3, .53 * .47 + (1-.53) * .41 = .44. Оскільки пункт 2 має найнижчу очікувану вартість, вона буде здійснюватися наступним.

Інформація 

Вся ця стаття пов'язана з використанням до пункту випробуваного і розподілу інформації в векторах декодування відповідь, щоб зробити краще припущення щодо того, оволодіння стану піддослідних. Зазвичай використовується міра інформації з теорії інформації (див. Обкладинка і Томас, 1991), Шеннон (1948) ентропія, тут застосовно:

де рк є частка S належать до класу. Ентропія можна розглядати як міру рівномірності розподілу та має максимальне значення при рк = 1 / K для всіх оскільки Мета полягає в тому, щоб мати пік розподілу P (МК) і на наступний виберіть елемент, який має найбільше очікуване зменшення ентропії, тобто

H (S0) - H (Si)

(6)

де Н (S0) є поточною ентропії і H (Si) є очікуваним ентропії після введення пункту I, тобто сума зважених умовних ентропій класифікації ймовірностей, які відповідають правильним і неправильним відповіддю

Це може бути обчислена за допомогою наступних кроків:

1. Обчислити нормоване апостеріорні ймовірності класифікації, які є результатом правильних і неправильних відповідей до пункту я використовую (1).

2. Обчислити умовні ентропії (за умови правильної відповіді і залежність від неправильної відповіді), використовуючи (5).

3. Вага умовної ентропії від імовірності їх використання (7).

У таблиці 2 наведено розрахунки із зразками даних.

Таблиця 2: Розрахунок очікуваної ентропії класифікації пункти 2 і 3.

 

Відповідь

(zi)

Задня ймовірності класифікації

Умовна ентропія

P(zi)

H(Si)

Пункт 2

Правильно

P(m1)=.40

.97

.66

.89

 

 

P(m2)=.60

 

 

 

 

Неправильно

P(m1)=.20

.72

.33

 

 

 

P(m2)=.80

 

 

 

Пункт 3

Правильно

P(m1)=.38

.96

.53

.92

 

 

P(m2)=.62

 

 

 

 

Неправильно

P(m1)=.29

.87

.47

 

 

 

P(m2)=.71

 

 

 

 

Після введення першого пункту, P (m1) = 0,33, P (m2) = 0,66, а H (S) = 0,91. Пункт 2 результату в максимально очікуваний приріст ентропії і повинна бути введена наступна.

Одним з варіантів такого підходу є відносна ентропія, яка також називається Кульбака-Лейблера (1951) міра інформації та інформаційних дивергенція. Чанг і Ін (1996), Eggen (1999), Лін і спрей (2000), KL позитивну оцінку інформації, адаптивна стратегія тестування.

Читачеві слід зазначити, що ентропія очікується після введення пункт 3 буде більше, ніж H (S), що приведе до втрати інформації. Тобто, класифікація ймовірності, як очікується, стане менш загострені повинна пункту 3 можна вводити. В результаті цього пункту не повинно розглядатися в якості кандидата на наступний пункт. Можна хочете, щоб зупинити керуючі елементи, коли немає речі, залишені в басейн, який, як очікується, призведе до приросту інформації.

Послідовні рішення

 

У цій статті обговорюються процедури для прийняття рішення класифікація та процедури для вибору наступної пунктів, які будуть вводитися послідовно. У цьому розділі представлені процедури для прийняття рішення, коли є достатньо інформації, щоб ризикувати класифікації припущення. Можна було б зробити це визначення після кожної відповіді.

Можливо, найпростіший правило Неймана-Пірсона критерії прийняття рішення - продовжувати тестування, поки ймовірність помилкових негативних, P (d2 | m1), менше, ніж задане значення = .05 був обраний "Нехай.». Після першого пункту, то ймовірність бути без господаря P (m1 | г) = 0,66. Якщо випробуваний оголошена без господаря, то поточна ймовірність цього бути хибно негативні є (1-0,33). Тому що це більше, ніж ", то рішення продовжити випробування.

Варіант Неймана-Пірсона є фіксована ставка критерію помилки - встановити два граничних значення "1 і" 2, і продовжити тестування, поки P (d2 | m1) <"1 і P (d1 | м2) <" 2. Іншим варіантом є вартість критеріями поріг. У відповідності з цим підходом, витрати відносяться на кожен правильні і неправильні рішення, і рішення прийняти ще одне спостереження. Тестування триває доти вартість порогу. Один з варіантів такого підходу полягає в зміні структури витрат, як кількість вводяться елементів збільшується.

(1947) Вальда послідовного критерію відносини ймовірностей (SPRT, виражений ривок), безсумнівно, є найбільш відомим послідовне правило рішення. SPRT K для декількох категорій можна резюмувати

де P (т) 'и нормовані апостеріорні ймовірності ", є прийнятною швидкістю помилки, і $ є шуканим влади. Якщо ця умова не відповідає за будь-якої категорії К, то тестування продовжується. При вимірюванні поля, є значний і вражаючий обсяг літератури, показує, що SPRT дуже ефективна, як правило для припинення IRT комп'ютер адаптивних тестів (див. Reckase, 1983; спрей і Reckase, 1994, 1996, Льюїс і Sheehan, 1990; Шихан і Льюїс, 1992).

Обговорення

У їх введення, Cronbach і Глезер (1957) стверджують, що кінцевою метою для тестування є досягнення якісних рішень класифікація. Сьогоднішні рішення часто є бінарними, наприклад, тому, щоб найняти когось, будь то людина освоїла певний набір навичок, чи слід заохочувати людину. Multi-стану умов є загальними в державній оцінки, наприклад, відсоток студентів, які виступлять на основний, досвідчений або просунутого рівня. Проста модель вимірювань, представлені в цій статті, застосовні на ці та інші ситуації, в яких він зацікавлений в категоричній інформації.

Модель має дуже просту структуру - одна починається з умовної ймовірності випробовуваних в кожній державі майстерність відповідає правильно для кожного пункту. Можна отримати ці ймовірності від дуже невеликого пілотного зразка. Це дослідження показало, що мінімальний розмір комірки одного випробуваного за одиницю розумний розмір вибірки калібрування. Точність тестів калібровані із такою малий розмір зразка дуже близько до точності тестів калібрований сотні випробовуваних на осередок.

Відповідь індивіда моделі оцінюється від цих умовних ймовірностей. Один обчислює ймовірність відповіді вектора дається кожен рівень майстерності. Використовуючи теорему Байєса, умовні ймовірності можуть бути перетворені в апостеріорні ймовірності представляють ймовірність кожної держави майстерності. Альтернативні правила прийняття рішень були представлені.

У даній статті розглядаються два способи адаптивно, або послідовно, адміністрування елементів з використанням моделі. Традиційна теорія прийняття рішень послідовного підходу до тестування, мінімальна вартість, а також новий підхід, приріст інформації, яка заснована на ентропії і виходить з теорії інформації.

Дослідження показали, що дуже небагато випробувані льотчик-випробувач необхідні для калібрування системи (Rudner, у пресі). Один або два випробовуваних на клітку за одиницю результату в тесті, який так точні, як один калібрований з сотнями льотчик-випробувач випробовуваних на осередок. Результати були послідовно через пункт басейни і тест довжини. Основні дані від пілота пропорції випробовуваних в межах кожної держави майстерності, які реагують правильно. Один насправді не потрібні апріорні ймовірності випадково вибраних випробовуваних знаходяться в кожній державі майстерності. Рівномірний настоятелі можна очікувати збільшення кількості необхідних предметів і серйозно не впливають на точність даної правильно обраної правил зупинки.

Це, безумовно, простий, але потужний і широко застосовні моделі. Переваги цієї моделі багато - модель

  • дає точне стан майстерність класифікації,
  • може включати в себе невеликий басейн пункту,
  • простий в реалізації,
  • не вимагає великого попереднього тестування,
  • застосовна до критерію посилання тестів,
  • можуть бути використані в діагностичному тестуванні,
  • може бути адаптована для отримання класифікацій на декількох навичок,
  • може використовувати послідовне тестування і послідовні правила рішення, і
  • повинно бути легко пояснити не-статистиків.

Це надію автора, що це дослідження буде захопити уяву дослідницьких і прикладних громад вимірювання. Автор може уявити собі більш широке використання моделі в якості механізму маршрутизації для інтелектуальних навчальних систем. Товари можуть бути пілотовані з декількома кількість випробовуваних значно поліпшити кінця блоку іспитів. Сертифікаційних іспитів можуть бути створені спеціалізовані заняття з обмеженим числом практикуючих доступні для пункту калібрування. Короткі тести можуть бути підготовлені для вчителів, щоб допомогти зробити попереднє розміщення та просування рішень. Невелика колекція предметів з одного тіста, скажімо державної NAEP, можуть бути вбудовані в інше випробування, скажімо, оцінки стану, для отримання значущих міжрегіональних інформації.

Дослідження питань дуже багато. Як можна моделлю бути продовжений на кілька, а не дихотомічних категорій відповідей товар? Як може бути виявлено зсув? Наскільки ефективні альтернативні адаптивного тестування і послідовного правил прийняття рішень? Чи може модель ефективного продовжено до 30 або більше категорій і забезпечити ранжувати випробовуваних? Як ми можемо ефективно використати той факт, що дані порядковий? Як поняття ентропії бути використані у вивченні тестів? Є новий предмет аналізу процедур, які можуть поліпшити вимірювання тести теорії прийняття рішень? Як може бути кращою моделлю стосовно до критерію посилання тести оцінки декількох навичок, кожний з яких має невелике число елементів? Чому мінімальної вартості і приросту інформації так схожі? Як різної структури витрат ефективно використовуватися? Як елементів з одного тіста бути використані в іншому? Як можна прирівняти такі випробування? Автор в даний час вивчає застосовність моделі до комп'ютера забив нарисів. У таких досліджень, есе функції від великого пілот розглядаються як елементи цілісної та оцінки як володіння держави.

Увага

Цей підручник був розроблений за рахунок коштів Національної бібліотеки освіти, Департамент освіти США, нагорода ххх і з Національного інституту по успішності учнів, навчальних програм та оцінки, Департамент освіти США, гранту R305T010130. Погляди і думки, виражені в даній статті, належать авторові і не обов'язково відображають точку зору фінансових установ.

Посилання

 

Allen, Nancy L., James E. Carlson, and Christine A. Zelenak (2000). The NAEP 1996 Technical Report. Washington, DC: National Center for Educational Statistics. Available online: http://nces.ed.gov/nationsreportcard/pubs/main1996/1999452.asp

Baker, F. (2001). The Basics of Item Response Theory. Second edition. College Park: MD: ERIC Clearinghouse on Assessment and Evaluation.

Birnbaum, A. (1968). Some latent trait models. In F.M. Lord & M.R. Novick, (Eds.), Statistical theories of mental test scores. Reading, MA: Addison-Wesley.

Chang, H.-H., and Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 213-229.

Colorado State Department of Education (2000). Colorado Student Assessment Program (CSAP), Technical Report, Grade 5 Mathematics. Available online: http://www.cde.state.co.us/cdeassess/download/pdf/as_csaptech5math99.pdf

Cover, T.M. and J.A. Thomas, Elements of Information Theory. New York: Wiley, 1991.

Cronbach, L.J. and Gleser, G.C. (1957). Psychological tests and personnel decisions.. Urbana: University of Illinois Press

Eggen, T. J. H. M. (1999). Item Selection in Adaptive Testing with the Sequential Probability Ratio Test. Applied Psychological Measurement, 23(3), 249-61.

Ferguson, R.L. (1969). The development, implementation, and evaluation of a computer assisted branched test for individually prescribed instruction. Doctoral dissertation. University of Pittsburgh, Pittsburgh, PA.

Hambleton, R. and Novick, M (1973). Toward an integration of theory and method for criterion-referenced tests. Journal of Educational Measurement, 10, 159-170.

Huyhn, H. (1976). Statistical considerations for mastery scores. Psychometrika., 41, 65-79.

Kingsbury, G. G., & Weiss, D. J. (1983). A comparison of IRT-based adaptive mastery testing and a sequential mastery testing procedure. In D. J. Weiss (Ed.), New horizons in testing: Latent trait test theory and computerized adaptive testing (pp. 257-283). New York: Academic Press.

Kullback, S. & Leibler, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics, 22, 79-86.

Lewis, C. and Sheehan, K. (1990). Using Bayesian decision theory to design a computerized mastery test. Applied Psychological Measurement, 14(2), 367-86.

Lin, Chuan-Ju; Spray, Judith (2000). Effects of Item-Selection Criteria on Classification Testing with the Sequential Probability Ratio Test. ACT Research Report Series.

Macready, G. and Dayton C. M. (1977). The use of probabilitistic models in the assessment of mastery. Journal of Educational Statistics. 2(2), 99-120.

Macready, G. and Dayton C. M. (1992). The application of latent class models in adaptive testing. Psychometrika, 57(1), 71-88.

Mislevy, R. J., & Gitomer, D. H. (1996). The role of probability-based inference in an intelligent tutoring system. User-Mediated and User-Adapted Interaction, 5, 253-282.

Reckase, M. D. (1983). A procedure for decision making using tailored testing. In D. J. Weiss (Ed.), New horizons in testing: Latent trait test theory and computerized adaptive testing (pp. 237-255). New York: Academic Press.

Shannon, C.E. (1948). A mathematical theory of communication, Bell System Technical Journal, 27, 379-423 and 623-656, July and October. Available online: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html

Sheehan, Kathleen and Lewis, Charles (1992). Computerized Mastery Testing with Nonequivalent Testlets. Applied Psychological Measurement, v16 n1 p65-76 Mar 1992

Spray, Judith A. and Reckase, Mark D. (1996). Comparison of SPRT and Sequential Bayes Procedures for Classifying Examinees into Two Categories Using a Computerized Test. Journal of Educational and Behavioral Statistics, 21(4), 405-14.

Spray, Judith A. and Reckase, Mark D. (1994). The Selection of Test Items for Decision Making with a Computer Adaptive Test. Paper presented at the Annual Meeting of the National Council on Measurement in Education (New Orleans, LA, April 5-7, 1994).

van der Linden, W. J. and Mellenbergh, G.J. (1978). Coefficients for tests from a decision-theoretic point of view. Applied Psychological Measurement, 2, 119-134.

van der Linden, W. J. and Vos, H. J. (1966) A Compensatory Approach to Optimal Selection with Mastery Scores. Psychometrika, 61(1), 155-72.

Vos, Hans J. (1999). Applications of Bayesian Decision Theory to Sequential Mastery Testing. Journal of Educational and Behavioral Statistics, 24(3), 271-92.

Wald, A. (1947). Sequential analysis. New York: Wiley.

Welch, R.E. & Frick, T. (1993). Computerized adaptive testing in instructional settings. Educational Technology Research & Development, 41(3), 47-62.

Wood, R. (1976). Adaptive Testing: A Bayesian Procedure for the Efficient Measurement of Ability. Programmed Learning and Educational Technology, 13, 2, 36-48.

 

Переведено з http://echo.edres.org:8080/mdt/

Домашня сторінка

 

© 2012 Все права под надежной защитой.