ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 728

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

вычислить по следующей формуле:

0т= i 1/1 -"ii,

где (71- стандартное отклонение результатов теста, а гц-коэффициент

надежности, и оба вычислены для одной и той же группы. Например, ес-

IQ данного теста интеллекта имеет стандартное отклонение 15

;рэффициент надежности 0,89, то (7 для IQ в этом тесте равно

/1 - 0,89 = 151/0,11 х 15 x 0,33 X 5,0.

Чтобы уяснить себе смысл показателя ст, предположим, что в упомя-

нутом тесте интеллекта для мальчика Джима получено 100 значений IQ.

В силу действия различных источников случайных ошибок, уже рассмо-

тренных в данной главе, эти результаты будут весьма различными, обра-

зуя нормальное распределение вокруг истинного показателя Джима.

Среднее значение этого распределения-100 результатов можно принять

за истинный результат, а стандартное отклонение распределения-за ст.

Как и любое стандартное отклонение, стандартную ошибку можно ин-

терпретировать на нормальной кривой распределения частот (см. ри?. 3,

гл. 4). Напомним, что при нормальном распределении на интервал + 1ст

приходится приблизительно 68Їо wex случаев. Следовательно, имеется

примерно два шанса против одного (точнее 68:32), что IQ Джима по

этому тесту будут колебаться между +1 с, или выше, или ниже его ис-

тинного IQ на 5 единиц. Например, при истинном IQ, равным 110, мож-

но ожидать, что 2/3 его результатов распределятся между 105 и 115.

Если хотят сделать более точное предсказание, то выбирают более

высокое соотношение, чем 2:1. Из рис. 3 (гл. 4) видно, что интервал

+ Зст охватывает 99,7Їо случаев. Для нормальной кривой интервалу

+ 2,58(7 соответствует 99Ї() слушев. Иными словами, имеется 99 шансов

против 1 за то, что IQ Джима расположится в пределах 2,58(7, или на

121 НАДЕЖНОСТЬ

2,58 x 5 = 13 единиц по обе стороны от истинного IQ. Таким образом,

можно утверждать с 99Їо-ной уверенностью (один шанс ошибиться про-

тив ста), что IQ Джима при однократном применении теста окажется

в пределах от 97 до 123. Иначе говоря, если бы Джиму предъявили 100

тестов, эквивалентных данному, то его IQ могло бы выйти за пределы

лишь один раз.

На практике, конечно, имеются не истинные результаты, а. резуль-

таты, полученные при единичном предъявлении теста. В этих обстоятель-

ствах мы могли бы воспроизвести приведенные рассуждения в обратном

порядке. Если полученный индивидом результат отклонится от истинно-

го показателя более чем на 2,58ст",, то его истинный показатель должен


находиться в пределах 2,58ст", от полученного результата. Хотя нельзя

установить вероятность справедливости этого утверждения для любого

полученного результата, можно сказать, что оно будет верным в 99Їо

случаев. Следуя этой логике, X. Галликсен (Н. Gulliksen, 1950b, р. 17-20)

предложил использовать стандартную ошибку измерения для того,

чтобы по результату теста определять <разумные пределы> истинного

показателя. Подобные <разумные пределы> принято называть в психоло-

гическом тестировании и в данной книге тоже интерпретацией ошибки

измерения.

Очевидно, что стандартная ошибка измерения и коэффициент надеж-

ности-это взаимозаменяемые способы выражения надежности теста.

В отличие от коэффициента надежности ошибка измерения не зависит от

разнородности группы, на которой она была определена. Будучи выра-

жена в индивидуальных результатах, она остается неизменной, независи-

мо от того, определена ли она на однородной или гетерогенной группе.

Вместе с тем приводимая в единицах показателя ошибка измерения бу-

дет несравнимой для различных тестов. Проблема сравнимости для

ошибки измерения возникает, когда она выражена в таких единицах, как

число арифметических задач, количество слов словарного теста и т.п.

Следовательно, если хотят сравнить надежность различных тестов, луч-

ше пользоваться коэффициентом надежности. Интерпретации же индиви-

дуальных результатов более соответствует стандартная ошибка измере-

ния.

Интерпретация различий между индивидуальными ре-

зультатами. Особенно важно рассмотреть надежность теста и ошибку

измерения применительно к оценке различий между двумя результатами.

Представление результатов теста в виде интервалов значений предотвра-

щает акцентирование внимания на незначительной разнице в результа-

тах, что нежелательно как при сравнении показателей теста у различных

испытуемых, так и при сравнении показателей различных способностей

одного испытуемого. Изменения результатов вследствие обучения или

других причин экспериментального воздействия также необходимо ин-

терпретировать с учетом ошибки измерения.

Часто возникает вопрос об относительном положении показателей

индивида в различных сферах деятельности. Действительно ли у Джейн

вербальные способности более выражены, чем математические? Есть ли

основания считать, что Том обладает большими данными в сфере техни-


ки, нежели в работе со словом? Если в батарее тестов различных способ-

ностей Джейн получила более высокий показатель по вербальному, чем

OT>TJTTr.CT ЛЛUtяa\ЛЛ Tf>Y-

122 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

утверждать, что они могли бы иметь те же показатели при повторном

тестировании с другой формой батареи? Иными словами, были ли полу-

ченные различия в показателях просто результатом случайного отбора

конкретных заданий в данных субтестах-вербальном, математическом

и механическом?

В связи с растущим интересом к интерпретации профилей показате-

лей издатели тестов разработали формы представления данных, позво-

ляющие оценивать показатели в соответствии с ошибками измерения.

На рис. 13 в качестве примера воспроизведена форма регистрации инди-

видуальных показателей, используемая в тестах различных способностей.

На приведенной форме процентильные показатели по каждому субтесту

батареи изображаются в виде полос длиной в один дюйм, центры ко-

торых находятся против соответствующих процентилей испытуемого.

Каждая такая процентильная полоса соответствует расстоянию приблизи-

тельно 1,5-2 стандартные ошибки по обе стороны от полученного пока-

зателя. Следовательно, предположение, что истинный показатель инди-

вида лежит внутри такой полосы, верно приблизительно в 90Їо случаев.

При интерпретации профилей пользователю теста рекомендуется не при-

давать значения различиям между показателями, чьи процентильные по-

лосы перекрывают друг друга, особенно если перекрытие превышает по-

ловину их длины. В профиле, приведенном на рис. 13, например,

различие между показателями словесного рассуждения и способности

к действию с числами, по-видимому, отражает подлинную разницу

в уровне способности, чего нельзя сказать о различии между технически-

ми рассуждениями и пространственными представлениями. Различие же

между абстрактными и техническими рассуждениями остается неясным.

Следует помнить, что стандартная ошибка различий двух показате-

лей больше, чем ошибка измерения каждого из них в отдельности. Это

вытекает из того, что на это различие влияют случайные ошибки измере-

ния обоих показателей. Зная величины стандартных ошибок для каждого

из двух результатов теста, стандартную ошибку разности различий мож-

но вычислить по следующей формуле:

= 1/1 + 2.


где стд-стандартная ошибка различий двух результатов, а с и

ст"2 -стандартные ошибки измерения каждого результата. Подставляя

<71/1- rii на место (71 и ст]/1-Гц на место (72, можно выразить о а

через коэффициенты надежности:

= ст/2- ri, - г" .

Здесь <J-стандартное отклонение, одинаковое для тестов 1 и 2, посколь-

ку предполагается, что их показатели при сравнении были переведены

в одну и ту же шкалу.

Проиллюстрируем приведенную выше процедуру на примере вер-

бального IQ и IQ шкалы действия интеллекта взрослых Векслера. Най-

" Поскольку коэффициент надежности (и, следовательно, ет") несколько меняется

в зависимости от субтеста, класса и пола, действительные диапазоны дюймовых полос на

123

НАДЕЖНОСТЬ

денные методом расщепления коэффициенты надежности этих показате-

лей равны соответственно 0,96 и 0,93. Для этой шкалы стандартный IQ

имеет М -- 100 и о = 15. Таким образом, стандартная ошибка различия

двух результатов может быть найдена следующим образом:

Рис. 13. Профиль результатов теста различных

с использованием процентильных полос,

способностей (DAT), построенный

о Ugsgg g s 5 11 1 11 III ll 11 1 L

вч со + 1-. 3 i>o r3 uio s o

Первич-з u Suю з < ss i с 10 (u т i?" 5-5 з S и

ный ре-

зультат213051433844399640

Процен-тиль609580953080909985

124 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

о а == 152~0,96~0,93 - 4,95.

Чтобы определить, насколько велики такие различия результатов в слу-

чае уровня 0,05, умножим стандартную ошибку разности 4,95 на 1,96, что

даст 9,7, т.е. приблизительно 10 единиц шкалы. Следовательно, различия

выполнения индивидом вербального IQ и IQ действия по этой шкале

должны быть не меньше 10, чтобы их можно было считать значимыми

на уровне 0,05.

НАДЕЖНОСТЬ КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫХ ТЕСТОВ

В гл. 4 говорилось, что критериальный тест обычно (хотя и не всегда)

оценивает выполнение скорее как овладение навыком, чем как уровнь до-

стижений. Основное статистическое следствие из тестирования владения

навыком-снижение вариативности результатов у испытуемых. Теорети-

чески, если обучение каждого индивида продолжать, пока тот не овла-

деет навыком, вариативность упадет до нуля. Низкая вариативность

объясняется не только спецификой процедуры критериально-ориентиро-

ванного тестирования, но, как будет видно из гл. 8, она привносится

в тесты через построение и отбор заданий.


В одном из предыдущих разделов этой главы объяснялось, что лю-

бая корреляция, и коэффициент надежности в том числе, зависит от раз-

нородности состава группы, на которой она определяется. С повыше-

нием однородности выборки коэффициент корреляции снижается. Следо-

вательно, было бы неправильно оценивать надежность большинства

критериально-ориентированных тестов обычными методами. При этих

условиях даже тесты с высокой стабильностью и внутренне согласо-

ванные могли бы иметь коэффициент надежности близкий к нулю.

При построении критериально-ориентированных тестов важно найти

ответы на следующие два вопроса: (1) какое число заданий следует счи-

тать достаточным для надежной оценки тех учебных задач, к которым

относится тест? и (2) какое количество заданий должно быть выполнено,

чтобы оценка овладения навыком была надежной? Ответы на эти два

вопроса в настоящее время даются большей частью на основе субъек-

тивных суждений. Однако предпринимаются усилия для разработки ста-

тистических методов, которые давали бы объективную эмпирическую

оценку (R.L.Ferguson, M.R.Novick, 1973; R.UIaser, A.J.Nitko, 1971;

R.K.Hambleton, M.R.Novick, 1973; S.A.Livingston, 1972; J.Millman,

1974). Несколько примеров послужат иллюстрацией характера и разно-

сторонности этих усилий.

Два вопроса о числе заданий и зачетных нормативах могут быть со-

единены в одной предпосылке, поддающейся проверке методами теории

решений и последовательного анализа (R.GIaser, A.J.Nitko, 1971;

B.W. Lindgren, G.W. McElrath, 1969; A. Wald, 1947). Собственно говоря,

" Более полное обсуждение специальных статистических процедур, необходимых для

построения и оценки критериально-ориентированных тестов, приводится в работах

Р. Гласера, А. Нитко, Р. Хамблетона, М. Новика, Дж. Миллмана, В. Попхама, Т. Гусека

(R. Glaser, A.J. Nitko, 1971; R.K. Hambleton, M.R. Novick, 1973; J. Millman, 1974; W.J. Po-

pham, T.R. Husek, 1969). В работах Дж. Миллмана (J. Millman, 1972, 1973) дается серия та-

блиц для определения минимального числа заданий, требуемого для установления овладе-

ния навыком на определенном уровне.

125 НАДЕЖНОСТЬ

требуется проверить гипотезу, что испытуемый достиг требуемого овла-

дения навыком в какой-то содержательной области или учебными зада-

чами, тестовыми заданиями. Последовательный анализ состоит в осу-

ществлении одного за другим серии наблюдений, после каждого из

которых принимается решение: (1) принять гипотезу, (2) отклонить гипо-

тезу, (3) провести дополнительное наблюдение. Таким образом, число на-