ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 766

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

нужды в отдельных коэффициентах надежности, соответствующих дис-

персии отвлечения или дисперсии временных лимитов.

Большинство тестов, особенно если они предназначены для массово-

го обследования с использованием компьютеров для вычисления показа-

телей, настолько стандартизированы, что их проведение и регистрация

результатов сводят на нет дисперсию ошибки, обусловленную этими

факторами. Пользуясь такими тестами, необходимо лишь внимательно

следить за выполнением соответствующих предписаний. Вместе с тем

имеются данные, свидетельствующие о том, что в клинических тестах,

применяемых при интенсивных индивидуальных обследованиях, важным

источником ошибки являются различия в способе проведения теста.

С помощью специальных экспериментов удается отделить соответствую-

щую дисперсию от той, которая обусловлена колебаниями в состоянии

испытуемого или использованием различных форм теста.

Сравнительно просто установить, насколько значителен другой ис-

точник ошибки, обусловленный дисперсией подсчета. Некоторые типы

тестов, особенно тесты творческих способностей и проективные лич-

ностные тесты, сильно зависят от оценки подсчитывающего показате-

ли теста. В таких тестах надежность подсчета столь же важно знать, как

и уже знакомые нам коэффициенты надежности. Такую надежность

субъективной оценки можно определить, сравнив два тестовых бланка

с оценками, заполненные двумя экспертами независимо друг от друга.

Коэффициент корреляции полученных таким образом результатов вы-

числяется обычным путем и служит искомой мерой надежности подсче-

та. Если результаты теста определяются на основе суждений эксперимен-

татора, то в руководстве к тесту необходимо также привести

и коэффициент надежности подсчета.

Итоги. Различные типы только что рассмотренных коэффициентов

надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены

по числу форм теста и сеансов тестирования, необходимых для их опре-

деления. В табл. 9 представлены источники дисперсии ошибки, учиты-

ваемые каждой из процедур определения коэффициента надежности.

-------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-

113

НАДЕЖНОСТЬ

Таблица 8

Методы измерения надежности теста

в мвисимости от форм теста и сеансов

тестирования

Таблица 9

Источники дисперсии ошибки для раз-


личных коэффициентов надежности

Необходимое число сеансов тес-Необходимое число форм теста

тированияоднадве

расщеплен-

наявзаимозаменяе-

Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)

ных оце-

нок

Тип коэффициента

надежности

Дисперсия ошибки

ретестовый

временные колебания

состояния испытуемого

ретестовая

взаимозаменяе-

мые (проводимые

через определен-

ный промежуток

времени)

взаимозаме-

няемых формнеоднородность

(непосредст-содержания

венный)

взаимозаме-колебания в состоянии

няемых формиспытуемого и неодно-

(с временнымзначность содержания

интервалом)

расщеплениянеоднозначность

содержания

неоднородность и

Кьюдера-Ри-неоднозначность

чардсона,содержания

альфаиндивидуальные

субъективныхразличия у ставящих

оценокоценки

ственно в процентах дисперсии показателей, определяемой разными

источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо

дисперсии результатов теста зависят от истинной дисперсии по измеряе-

мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-

му определению применяемой процедуры). Читателю, знакомому со ста-

тистикой, напомним, что долю общей дисперсии представляет квадрат

коэффициента корреляции. Действительно, доля <истинной> дисперсии

в результатах теста есть квадрат корреляции между результатами оди-

ночной формы теста и истинными результатами, свободными от слу-

чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-

на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса

надежности и дает коэффициент надежности (гц), который, следователь-

но, может интерпретироваться как процент <истинной> дисперсии.

Эксперименты, позволяющие получать разные типы коэффициентов

надежности для одной и той же группы, допускают разложение суммар-

ной дисперсии показателей на отдельные составляющие. Рассмотрим

следующий гипотетический пример. Предположим, 100 шестиклассников

с интервалом в два месяца прошли формы А и В теста творческих спо-

собностей, причем надежность взаимозаменяемых форм составила 0,7,

надежность, найденная методом расщепления и вычисленная по формуле

Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-


лученная благодаря привлечению еще одного эксперта, проставившего

новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.

" Выводы индекса надежности, основанные на двух различных сериях допущений,

приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3).

В целях более точной оценки коэффициента внутренней согласованности корреля-

ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-

п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

Таблица 10

Анализ источников дисперсии ошибки в гипотетическом тесте

Надежность взаимозаменяемых

форм теста с временным интервалом

1-0 7= 0,3

Изменения состояния

испытуемого + неоднознач-

ность содержания

Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность

формуле Спирмана-Брауна содержания

Разность = 0,1 Изменения состояния

испытуемого

Надежность субъективных оценок

1 - 0,92 = 0,08 Индивидуальные

различия у

ставящих оценки

Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38

<истинная> дисперсия = I - 0,38 = 0,62

Анализ этих трех коэффициентов надежности приводится в табл. 10 и на

рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-

держания, из дисперсии ошибки, определяемой временный выборкой

и выборкой содержания, получаем, что дисперсия временных колебаний

равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-

жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-

лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что

<истинная> дисперсия равна 0,62. Эти величины, выраженные в более

привычной процентной форме, графически изображены на рис. Ц.

НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ

При составлении теста и интерпретации его результатов важно разли-

чать измерение скорости выполнения и возможности выполнения. В <чи-

стом> тесте на скорость индивидуальные различия определяются толь-

ко скоростью выполнения заданий. Трудность заданий такого теста

принудительно одинакова, невысока и вполне посильна испытуемым, на

которых рассчитан тест. Но лимит времени устанавливается так, что

никто не успевает выполнить всех заданий. В таких условиях результат

испытуемого отражает только скорость его работы. Вместе с тем в <чи-


стом> тесте возможностей испытуемому предоставляется достаточно

времени для выполнения всех заданий. Но их трудность постепенно воз-

растает от задания к заданию, так что никто не может справиться со все-

ми заданиями, а значит, не может получить высший результат.

Вообще как скоростные тесты, так и тесты возможностей строятся

с таким расчетом, чтобы нельзя было получить высшего результата.

Излагая на элементарном уровне общую идею одного из способов интерпретации

численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных

чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-

НАДЕЖНОСТЬ

"Истинная" дисперсия = 62%

_

Дисперсия ошибки = 38%

Стабильность во времени; согласованность форм;

независимость от особенностей лиц.оценивающих

выполнение теста

Различия у лиц, оценивающих выполнение теста

Рис. 11. Процентное распределение дисперсии результатов гипотетического теста

Объясняется это неопределенностью такого результата: остается не-

известным, насколько индивидуальный результат оказался бы выше, ес-

ли бы в тесте было использовано больше заданий или соответственно

более трудные задания. Чтобы каждый испытуемый мог полностью про-

демонстрировать, на что он способен, <потолок> теста должен быть за-

ведомо выше его возможностей либо по числу заданий, либо по степени

трудности. Исключение составляют тесты владения навыком, например

критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-

кого тестирования не в том, чтобы установить границы возможностей

индивида, а в определении того, достиг ли он заранее установленного

уровня выполнения.

Практически большинство тестов являются одновременно и ско-

ростными, и тестами возможностей, однако пропорция, в которой пред-

ставлены оба эти компонента, может быть различной. Знание этой про-

порции необходимо не только для того, чтобы понять, что измеряет

тест, но и для выбора надлежащей процедуры оценки его надежности.

Коэффициенты надежности, получаемые при однократном предъявлении

теста, когда определяется корреляция данных по заданиям с четными

и нечетными номерами или используется формула Кьюдера-Ричардсо-

на, неприменимы к тестам на .скорость. Чем больше индивидуальные

различия в тестовых результатах зависят от скорости выполнения, тем


более завышенными оказываются коэффициенты надежности, опреде-

ленные этими методами. Это видно из следующего контрастного приме-

ра. Пусть некий тест, состоящий из 50 заданий, является чисто ско-

ростным тестом, т.е. индивидуальные различия в результатах опреде-

ляются лишь числом выполненных заданий, а не числом ошибок. Тогда

испытуемый А, набравший 44 очка, очевидно, получит по 22 очка за

четные и за нечетные задания. Точно так же испытуемый В, показавший

результат 34, справится с 17 четными и 17 нечетными заданиями. Следо-

вательно, если не считать нескольких случайных ошибок, допущенных по

небрежности, корреляция между четными и нечетными заданиями будет

полной, т.е. равна 1. Но такая корреляция, однако, явно завышена и не

дает никакой информации о надежности теста.

Проверка процедур, используемых при определении надежности ме-

тодом расщепления и по формуле Кьюдера-Ричардсона, показала, что

обе они основаны на согласованности числа ошибок. Если же различия

индивидуальных тестовых результатов определяются не ошибками,

а скоростью, то и мера их надежности должна, очевидно, основываться

на согласованности заданий на скорость. Когда же выполнение теста за-

nwru-г пгтнпнпомйннп пт скоппсти и возможностей выполнения, то коэ(Ь-

116 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

вления теста, окажутся ниже 1,00, но все еще будут завышенными. Такие

коэффициенты надежности не поддаются адекватной интерпретации, по-

скольку на индивидуальные различия в тестовых результатах заметное

влияние оказывает скорость выполнения заданий.

Какие же процедуры определения надежности пригодны для тестов

с выраженным скоростным компонентом? Такими процедурами могли

бы быть метод ретеста (если его удается применить) и метод взаимоза-

меняемых форм. Можно воспользоваться и методом расщепления при

условии, что задания теста расчленяются по временным характеристи-

кам, а не по порядковым номерам. Иными словами, сравниваемые ре-

зультаты должны быть получены временным разделением частей теста.

Одним из способов такого разделения является применение двух эквива-

лентных частей теста с разделенным временным ограничением. Напри-

мер, четные и нечетные задания распечатываются на разных листах, и по

каждому набору заданий устанавливается временной лимит, равный по-

ловине лимита для всего теста. Такая процедура равносильна проведе-