ИССЛЕДОВАНИЕ ВЛИЯНИЯ НЕРАВНОМЕРНОГО РАСПРЕДЕЛЕНИЯ ТЕСТОВЫХ ЗАДАНИЙ НА ТОЧНОСТЬ ИЗМЕРЕНИЯ ЛАТЕНТНЫХ ПАРАМЕТРОВ (ЧАСТЬ 1)

Летова Линара Васильевна
Омский государственный технический университет
аспирант

Аннотация
Для тестолога и исследователя важно, чтобы тест являлся измерительным инструментом, точно отражал исследуемый латентный параметр. Тест как измерительный инструмент – это система тестовых заданий равномерно возрастающей трудности. Но в реальных практических ситуациях тестовые задания распределены неравномерно, что может негативно сказываться на точности измерения. В статье в рамках имитационного моделирования, воспроизводящем различные практические ситуации, исследуется влияние неравномерного распределения тестовых заданий на точность измерения латентных параметров в социальных системах.

Ключевые слова: измерение латентных переменных, модель Раша, распределение тестовых заданий, тест как измерительный инструмент


RESEARCH OF INFLUENCE OF UNEVEN DISTRIBUTION OF TESTS ON THE MEASUREMENT ACCURACY OF LATENT PARAMETERS (PART 1)

Letova Linara Vasilievna
Omsk State Technical University
post-graduate student

Abstract
For testers and researchers, it is important that the test was measuring instrument accurately reflects the latent parameter analyzed. Test as a measuring tool - a system of tests uniformly increasing difficulty. But in real practical situations test tasks are distributed unevenly, which may adversely affect the accuracy of measurement. In an article in the framework of simulation reproducing various practical situations, we investigate the influence of uneven distribution of tests on the measurement accuracy of latent parameters in social systems.

Keywords: distribution of test items, measurement of latent variables, Rasch model, test as the measuring tool


Рубрика: 05.00.00 ТЕХНИЧЕСКИЕ НАУКИ

Библиографическая ссылка на статью:
Летова Л.В. Исследование влияния неравномерного распределения тестовых заданий на точность измерения латентных параметров (часть 1) // Современные научные исследования и инновации. 2014. № 4. Ч. 1 [Электронный ресурс]. URL: https://web.snauka.ru/issues/2014/04/33733 (дата обращения: 15.03.2024).

1. Постановка задачи

В социальных системах многие переменные являются латентными, т.е. непосредственно не измеряемыми. Такие переменные задаются через набор индикаторов (тестовых заданий), которые можно непосредственно оценить или измерить. В середине прошлого столетия благодаря разработке теории латентных переменных появилась возможность измерять латентные переменные на линейной шкале [1]. Это позволило перейти на принципиально новый уровень исследования в социальных системах. Мировой опыт применения теории латентных переменных диктует использование современной теории тестирования (модель Раша) в силу возможности проведения объективных измерений [2-5]. В наших исследованиях в качестве методического инструмента выступает именно модель Раша.

Модель Раша имеет два параметра[1]: измеряемая латентная переменная βi и трудность тестового задания dj. Оба эти параметра измеряются на единой шкале латентной переменной в логитах. На рис. 1 представлен пример измерения латентных переменны: верхняя диаграмма демонстрирует частотное распределение измеряемой латентной переменной βi, нижняя диаграмма – трудностей тестовых заданий dj на единой шкале логитов.

Рис. 1. Частотное распределение измеряемой латентной переменной βi (верхняя диаграмма) и трудностей тестовых заданий dj (нижняя диаграмма) на единой шкале логитов

В рамках современной теории тестирования для обеспечения одинаковой точности измерения латентной переменной на всем диапазоне ее варьирования (верхняя диаграмма рис. 1) важно равномерно расположить индикаторные переменные в широком диапазоне (нижняя диаграмма рис. 1). Рассмотрим причины этого требования. Каждое тестовое задание наиболее точно измеряет объект[2] с уровнем подготовки, соответствующим трудности этого задания, т.е. при dj = βi. Поэтому отсутствие тестовых заданий на некоторых участках шкалы (например, окно в районе 2-х логит на рис. 1) и их небольшой диапазон варьирования, не перекрывающий диапазон варьирования латентной переменной,  ухудшают метрические свойства теста как измерительного инструмента [6-9]. В идеале распределение тестовых заданий должно быть равномерным на всем диапазоне варьирования латентной переменной. Но на практике добиться этого практически невозможно, окна в распределении тестовых заданий неизбежны. В практике объективных измерений остается открытым вопрос: какой размер окна на различных участках шкалы является некритичным [10,11]?

Данная статья описывает результаты исследования влияния ширины окна в распределении тестовых заданий на точность измерения латентной переменной. Кроме того, в статье оценивается точность измерения латентной переменной в зависимости от ее расположения на шкале измерения. В качестве статистики точности в данной статье рассматривается стандартная ошибка измерения SE. Методическим инструментом является дихотомическая модель Раша [1,2].

2. Раскрытие понятия стандартной ошибки измерения

Стандартная ошибка среднего в математической статистике — величина, характеризующая стандартное отклонение выборочного среднего, рассчитанное по выборке размера N из генеральной совокупности. Величина стандартной ошибки SE зависит от дисперсии тестового балла у и объёма выборки N и вычисляется по формуле [1]:

SE (1)

Из формулы (1) видно, что точность измерения повышается с увеличением объема выборки и уменьшается с ростом дисперсии тестового балла.

В теории тестирования SE трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении параллельных форм теста. Можно представить и другую гипотетическую ситуацию, когда i-ый испытуемый выполняет несколько раз один и тот же тест, а эффект запоминания отсутствует. Результаты тестирования при этом согласно теории вероятности образуют нормальное распределение вокруг истинного балла Xi со стандартным отклонением SE. Величину SE используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл Xi:

(Xi – 1,96SEXi + 1,96SE)

где Xi — наблюдаемый балл i-го испытуемого; 1,96 —табличное значение статистики Стьюдента при большом значении N и уровне значимости б 0,05. Таким образом, стандартная ошибка измерения является стандартной погрешностью оценки истинных баллов на основании наблюдаемых результатов тестовых измерений.
В рамках теории измерения на основе модели Раша стандартная ошибка измерения i-ого испытуемого SEопределяется как [1]

 (2) ,

где Pij – вероятность правильного ответа i-ого испытуемого на j-ое тестовое задание; m – число тестовых заданий. Из этой формулы видно, что в отличие от классической теории тестирования, где ошибка измерения одна и та же для всех испытуемых, в теории латентных переменных эти ошибки в общем случае являются различными. Например, если i-ый испытуемый правильно ответил на все задания, то стандартная ошибка является бесконечно большой. Если испытуемый неправильно ответил на все задания, то стандартная ошибка также является бесконечно большой. Наименьшая ошибка наблюдается у испытуемых, которые правильно отвечают примерно на половину тестовых заданий, т.е. у «хорошистов». На рис. 2 видно, что на краях измерительной шкалы значения SEзначительно больше, чем в середине шкалы.


Рис. 2 Распределение SE на измерительной шкале логитов

Как указывалось выше, пониженная точность расчетных значений на краях измерительной шкалы относительно центра объясняется более высокой дисперсией тестового балла на краях шкалы.

3. Обоснование уровня практической значимости точности измерения SE

Выводы о степени влияния ширина окна на точность измерения делаются по результатам моделирования на основе статистических данных и практической значимости. Уровень статистической значимости принят равным 0,05. Уровень практической значимости зависит от цели исследования, но все же авторы попытались априори задать его, опираясь на некоторые практические ситуации [8,9].

По условиям имитационного моделирования интервал варьирования измеряемой латентной переменной  равен 8 логит. Выбор этого интервала обусловлен многими практическими ситуациями [7-9]. В квалиметрии популярна 100-бальная шкала оценивания в силу простоты интерпретации и относительно высокой точности. Если сопоставить интервал варьирования латентной переменной (8 логит) и бальную шкалу оценивания (100 баллов), то можно предположить, что одному баллу соответствует 0,080 логит. В связи с тем, что один балл (0,080 логит) для испытуемого может играть существенную роль, авторы предлагают в качестве допустимого уровня практической значимости рассматривать значение отклонения модельного значения от экспериментального | βi e – βi m | равное 0,040 логит, соответствующее 0,5 баллам. Учитывая, что отклонение

| βi e – βi m | =SE*1.96 (3),

максимально допустимое значение SE принимается за 0,020 логит. Авторы надеются, что данный критерий с практической точки зрения является достаточным и необходимым уровнем. 

4. Анализ точности измерения объектов при окне в центре измерительной шкалы

Рассмотрим распределение значений SE при различных размерах окна в центре измерительной шкалы (рис. 3, табл. 1).

Рис. 3 Распределение SE объектов при различных размерах окна в распределении тестовых заданий в центре измерительной шкалы

Таблица 1. Средние значения SE при различных размерах окна в центре измерительной шкалы

размер окна

0

0,25

0,5

0,75

1

1,25

1,5

1,75

2

2,25

2,5

2,75

3

-4

0,64

0,64

0,65

0,64

0,64

0,62

0,60

0,60

0,60

0,59

0,61

0,58

0,55

-3

0,53

0,53

0,53

0,53

0,52

0,52

0,51

0,50

0,50

0,50

0,50

0,49

0,49

-2

0,48

0,48

0,48

0,49

0,48

0,49

0,49

0,48

0,49

0,49

0,49

0,50

0,50

-1

0,47

0,47

0,47

0,48

0,48

0,49

0,50

0,50

0,51

0,52

0,53

0,54

0,56

0

0,46

0,46

0,47

0,48

0,49

0,50

0,51

0,52

0,53

0,54

0,56

0,57

0,59

1

0,47

0,47

0,47

0,47

0,48

0,49

0,50

0,51

0,51

0,52

0,53

0,54

0,56

2

0,49

0,49

0,49

0,48

0,48

0,49

0,49

0,49

0,49

0,49

0,49

0,49

0,50

3

0,53

0,54

0,53

0,52

0,52

0,52

0,51

0,51

0,51

0,50

0,49

0,49

0,49

4

0,63

0,64

0,62

0,62

0,61

0,61

0,56

0,58

0,61

0,55

0,57

0,56

0,53

Визуальный анализ (рис. 3) дает основание говорить о значимости размера окна при оценке SE. Таким образом, представляет интерес исследование влияния ширины окна на точность измерения всех объектов (п. 4.1.), а также на отдельные группы испытуемых (п. 4.2.).

4.1. Анализ влияния ширины окна на среднюю точность измерения объектов

В рамках дисперсионного анализа точность измерения объектов без наличия окна последовательно сравнивается с точностью измерения объектов при наличии окон различной ширины. В табл. 2 приведены сводные результаты дисперсионного анализа,  средние значения SE при различных размерах ширины окна[3], а также отклонения значений SE от эталона, когда тестовые задания распределены равномерно.

Таблица 2. Сводные результаты анализа влияния размера окна в центре измерительной шкалы на точность измерения всех объектов

Ширина окна

Средняя ошибка SE, логит

Отклонение SE от эталона

Уровень значимости (р)

0 (эталон)

0,492

0

0,25

0,492

0

0,863

0,5

0,493

0,001

0,413

0,75

0,496

0,004

0,009

1

0,496

0,004

0,004

1,25

0,504

0,012

<0,001

1,5

0,504

0,012

<0,001

1,75

0,509

0,017

<0,001

2

0,513

0,021

<0,001

Из табл. 2 видно, что окно в центре измерительной шкалы размером от 0,75 логит и более статистически значимо влияет на точность измерения всех испытуемых, но с практической точки зрения только окно 2 логит критично. Таким образом, окно размером 2 логит и более в центре измерительной шкалы практически влияет на точность измерения объектов в целом.

4.2. Анализ влияния ширины окна на точность измерения объектов на различных участках шкалы

Точность измерения латентной переменной зависит от ее месторасположения на шкале, это хорошо видно на рис. 3-5[4].


Рис. 4. Стандартная ошибка измерения SE латентной переменной при отсутствии окна

Рис. 5. Стандартная ошибка измерения SE латентной переменной при наличии окна шириной в 2,00 логит

Более того, визуальный анализ показывает, что окно в центре шкалы в основном влияет на точность измерения объектов со средним уровнем подготовки.

Поскольку наличие окна в центре измерительной шкалы прежде всего влияет на оценку уровня подготовленности «хорошистов» (именно они находятся в середине шкалы), представляет интерес анализ влияния ширины окна на точность оценивания уровня подготовленности испытуемых, находящихся в разных частях шкалы, т.е. с разным уровнем подготовки. С этой целью испытуемые по уровню их подготовленности разделены на три группы: «слабые», группа 1 – 250 испытуемых (от -4,00 логит до -1,15 логит), «средние», группа 2 – 300 испытуемых (от -1,15 логит до 1,15 логит) и «сильные», группа 3 – 250 испытуемых (от 1,15 логит до 4,07 логит).

В рамках дисперсионного анализа эти группы сравниваются по точности оценивания в зависимости от ширины окна. Исследуемыми факторами являются:

  • фактор А – наличие окна, варьируется на двух уровнях: а1 – отсутствие окна, а2 – наличие окна,
  • фактор В – группа испытуемых, варьируется на трех уровнях: b1 – «слабые», b2 – «средние», b3 – «сильные.

Сводная статистика статистической значимости источников дисперсии приведена в табл. 3.

Таблица 3. Сводная статистика статистической значимости источников дисперсии

Ширина окна, логит

Источники дисперсии

Фактор А

Фактор В

Взаимодействие АВ

0,25

0,780

<0,001

0,409

0,50

0,434

<0,001

0,431

0,75

0,017

<0,001

<0,001

1,00

0,018

<0,001

<0,001

1,25

<0,001

<0,001

<0,001

1,50

<0,001

<0,001

<0,001

1,75

<0,001

<0,001

<0,001

2,00

<0,001

<0,001

<0,001

Кроме рассмотренной статистической значимости факторов также представляет интерес насколько важны эти различия на практике. С этой целью в табл. 4 приведены средние оценки уровней факторов, а в табл. 5 – изменения значений SE при различных размерах окна по сравнению с эталоном, когда ТЗ распределены равномерно на всем диапазоне шкалы (знак «-» означает повышение точности измерения).

Таблица 4. Стандартная ошибка измерения уровней факторов в зависимости от ширины окна

Ширина окна, логит

Фактор А

Фактор В

а1

а2

b1

b2

b3

0,00

0,492

0,492

0,507

0,465

0,508

0,25

0,492

0,492

0,507

0,464

0,510

0,50

0,492

0,493

0,508

0,467

0,508

0,75

0,492

0,496

0,509

0,471

0,506

1,00

0,492

0,496

0,506

0,474

0,505

1,25

0,492

0,504

0,507

0,482

0,508

1,50

0,492

0,504

0,506

0,485

0,505

1,75

0,492

0,509

0,504

0,490

0,508

2,00

0,492

0,513

0,506

0,494

0,508

Таблица 5. Изменения значений SE при различных размерах окна по сравнению с эталоном, когда ТЗ распределены равномерно на всем диапазоне шкалы

размер окна, логит

0,25

0,5

0,75

1

1,25

1,5

1,75

2

слабая группа

0

0,001

0,002

-0,001

0

-0,001

-0,003

-0,001

средняя группа

0

0,003

0,007

0,01

0,018

0,021

0,026

0,03

сильная группа

0

-0,002

-0,004

-0,005

-0,002

-0,005

-0,002

-0,002

На рис. 6 показаны средние значения SE для трех групп испытуемых при различных размерах окна (табл. 5).

Рис. 6. Стандартная ошибка измерения SE латентной переменной для групп испытуемых в зависимости от ширины окна

По сводным результатам анализа (табл. 3-5) можно заключить, что:

  • окно шириной от 0,75 логит и более (табл. 3) в центре измерительной шкалы статистически значимо влияет на точность измерения SE всех испытуемых (фактор А), но практически это значимо только при окне 2 логит, где значение SE увеличилось на 0,021 логит (0,513-0,492, табл. 4), что больше критического значения[5];
  • рассматриваемые группы испытуемых при любом размере окна в центре измерительной шкалы оцениваются с разной точностью, фактор В статистически значим; практически это критично[6] для «средних» испытуемых при размере окна от 1,5 логит и более (табл. 5);
  • группы испытуемых измеряются с разной точностью на всем диапазоне шкалы, взаимодействие факторов АВ статистически значимо (рис.6, табл. 3);
  • при увеличении размера окна в центре измерительной шкалы уменьшается точность измерения испытуемых со средним уровнем подготовки (табл. 5).

Таким образом, по п. 4 можно сделать вывод, что с практической точки зрения наличие окна шириной 2 логит является критичным для всех испытуемых в среднем, а окно от 1,5 логит и более – для «средних» испытуемых.


[1] Здесь для простоты рассматривается дихотомическая модель Раша, имеющая два параметра

[2] Под объектом понимается измеряемый латентный параметр. Так, например, в образовании это может быть уровень подготовленности испытуемых

[3] В наших исследованиях не рассматривается влияние окна размером более 2 логит, т.к. на практике это встречается крайне редко при условии, что тест разработан грамотно

[4] На рис. 4,5 отображены фактические значения и полиномиальная линия тренда

[5] Подобный вывод делался в п. 4.1.

[6] Изменение среднего значения SE превышает максимально допустимое 0,020 логит, точность измерения уменьшилась


Библиографический список
  1. Маслак, А.А. Измерение латентных переменных в социальных системах / А.А. Маслак. – Славянск-на-Кубани: Издательский центр СГПИ. 2012. -432 с.
  2. Masters N. G. The Key to Objective Measurement. Australian Council on Educational Research, 2001.
  3. Летова Л.В. Проблемы объективной оценки латентных величин в образовании и их решение // Дистанционное и виртуальное обучение. 2013. №9. – С. 90-98.
  4. Летова Л.В. Объективные измерения и моделирование латентных величин в образовании // Образование и наука. 2013. №8. – С. 75-88.
  5. Летова Л.В. Объективность измерений латентных переменных // Дистанционное и виртуальное обучение. 2014. №3. – С. 83-94.
  6. Летова Л.В. Точность измерения латентных переменных // Дистанционное и виртуальное обучение. 2013. №12. – С. 75-88.
  7. Летова Л.В. Исследование качества теста как измерительного инструмента // Дистанционное и виртуальное обучение. 2013. №11. – С. 116 – 125.
  8. Летова Л.В. Исследование качества теста единого государственного экзамена по математике с помощью модели Раша // Управление образованием: теория и практика. 2013. №1(9). – С. 89-99.
  9. Летова Л.В. Исследование качества теста единого государственного экзамена по физике  с помощью модели Раша // Управление образованием: теория и практика. 2013. №3(11). – С. 52-61.
  10. Peter Mathieu Kruyen Using Short Tests and Questionnaires for Making Decisions about Individuals: When is Short too Short? Ridderkerk, 2012. 161 p.
  11. Kruyen, P. M., Emons, W. H. M. and K. Sijtsma, 2012. Test Length and decision quality in personnel selection: When is short too short? International Journal of Testing, 12: 321-344.


Количество просмотров публикации: Please wait

Все статьи автора «Летова Линара Васильевна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:
  • Регистрация