ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 762

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

сти, ибо для его определения требуется лишь единственное применение

одной формы теста.

Первая проблема, с которой мы сталкиваемся, применяя метод рас-

щепления, связана с тем, как разделить тест надвое, чтобы при этом по-

лучились наиболее сопоставимые части. Всякий тест можно членить мно-

гими способами. Для большинства из них первая и вторая половины, как

правило, несопоставимы вследствие различий в природе и уровнях труд-

ности заданий, а также в связи с увеличивающейся вовлеченностью

в тест практики, утомления, скуки и т. д. Адекватная основным целям те-

стирования процедура разбивает результаты по четным и нечетным за-

даниям теста. Если задания теста расположены в порядке возрастания

трудности, то такое разбиение обеспечивает достаточную эквивалент-

ность показателей обеих половин. Одна предосторожность, которую тре-

буется при этом соблюдать, относится к случаю, когда тест содержит

группу взаимосвязанных заданий-например, когда несколько вопросов

касаются какой-то конкретной диаграммы или одного и того же фраг-

мента текста. В подобном случае каждая такая группа заданий должна

быть целиком отнесена либо к одной, либо к другой половине. Если за-

дания таких групп разделить на две части, то возникнет обманчивое

сходство сравниваемых показателей, так как любая ошибка в понимании

задачи скажется на выполнении заданий из обеих половин.

Полученные показатели по двум частям теста коррелируются обыч-

ным методом. Нужно иметь в виду, однако, что эта корреляция в дей-

ствительности отражает надежность лишь половины теста. Например,

--.-.. "". rnn- nnn-r.n,,rr т,о iru norroiilitt тп i-r<rir<i>TT<nina ттпгтчптывается

109 НАДЕЖНОСТЬ

для двух серий результатов, каждая из которых содержит только 50 за-

даний. В отличие от надежности этого типа, в ретестовой надежности,

и надежности взаимозаменяемых форм каждый показатель вычисляется

на основе общего числа заданий теста.

При прочих равных условиях, чем больше заданий содержит тест,

тем выше его надежность. Вполне оправданно ожидать, что чем обшир-

нее выборка поведения, тем адекватнее и согласованнее получаемые еди-

ницы измерения. Влияние увеличения или же сокращения теста на его

коэффициент надежности можно оценить посредством формулы Спирма-

на - Брауна:

l+(n-l)rii

где rii-исходное значение коэффициента надежности, Гц-его значение


после расширения или сокращения теста, а п -отношение нового числа

заданий к первоначальному. Так, если число заданий теста возросло с 25

до 100, топ равно 4, а если оно сократилось с 60 до 30, топ равно 1/2.

Формула Спирмана-Брауна широко используется для пересчета надеж-

ности, определенной по методу расщепления, и во многих руководствах

к тестам приводится уже пересчитанное значение. Поскольку переход от

расщепленного теста к его полной форме всегда означает удвоение числа

заданий, то эта формула принимает вид:

21

"~Ti

П.Ж. Рюлон (P.J. Rulon, 1939) предложил другой способ определе-

ния надежности методом расщепления. Для расчетов требуется знать

только дисперсию разностей между результатами каждого испытуемого

по обеим половинам теста (ст) и дисперсию суммарных результатов (ст).

Значения этих величин подставляются в формулу, определяющую надеж-

ность теста в целом:

.--

Интересно отметить связь между этой формулой и определением

дисперсии ошибки. Любая разность между результатами испытуемого

по двум половинам теста представляет собой случайную ошибку. Дис-

персия таких разностей, поделенная на дисперсию результатов, дает

долю дисперсии ошибки. Вычитая долю дисперсии ошибки из единицы,

мы получаем долю <истинной> дисперсии, которая и равна коэффициен-

ту надежности.

Метод Кьюдера-Ричардсона. Четвертый метод определения

надежности, также основайный на однократном предъявлении единствен-

ной формы теста, использует согласованность ответов по всем заданиям

теста. На согласованность этого рода влияют два источника дисперсии

ошибки: (1) выборка содержания на надежность взаимозаменяемых

форм и расщепления и (2) неоднородность исследуемой области поведе-

ния. Чем однороднее эта область, тем выше согласованность результа-

Увеличение числа заданий теста не повлияет, однако, на его временную стабиль-

110 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

тов заданий теста. Например, если в одном тесте приведены задания

только на умножение, а в другом представлено сложение, вычитание, ум-

ножение и деление, то в первом тесте согласованность выполнения от-

дельных заданий будет, вероятно, большей, чем во втором. Во втором

более разнородном тесте один испытуемый может лучше справиться

с вычитанием, чем с другими действиями, другой покажет относительно


высокий результат в делении, но хуже проявит себя в сложении, вычита-

нии и умножении и т.д. Более контрастным примером однородности

и разнородности мог бы служить тест, состоящий из 40 заданий на пони-

мание слов, и тест, содержащий 10 словарных заданий, 10 заданий на

пространственные отношения, 10 на арифметическое мышление и 10 на

скорость восприятия. В последнем тесте связь между индивидуальным

выполнением различных типов заданий может быть незначительной или

полностью отсутствовать.

Очевидно, что чем однороднее тест, тем однозначнее его резуль-

таты. Предположим, что в последнем из только что упомянутых тестов

Смит и Джонс получили по 20 очков. Можем ли мы заключить, что

с этим тестом они справились одинаково? Совсем нет. Смит мог пра-

вильно ответить на 10 словарных вопросов, получить по очку за каждое

из заданий на скорость восприятия и не выполнить ни одного задания на

арифметическое рассуждение и пространственные отношения. Напротив,

20 очков Джонса могли распределиться таким образом: 5 за скорость

восприятия, 5 за пространственные отношения, 10 за арифметическое

рассуждение и 0 за словарь.

Суммарный показатель в 20 очков мог бы, конечно, означать и мно-

жество других сочетаний в выполнении заданий. Вместе с тем в более

однородном словарном тесте показатель 20 будет, вероятно, означать,

что испытуемый правильно указал значение примерно 20 первых слов,

если слова расположены в порядке возрастания трудности. Он мог оши-

биться в отношении двух-трех сравнительно легких слов, дать пра-

вильный ответ по более трудным словам, расположенным под номера-

ми, большими 20, но такие индивидуальные колебания ничтожны по

сравнению с теми, которые присущи разнородному тесту.

Весьма существенным в этой связи является вопрос: насколько

однороден сам критерий, на предсказание которого направлен тест? Хо-

тя однородные тесты могут предпочитаться, поскольку их показатели

допускают довольно однозначную интерпретацию, но однородный тест

сам по себе, очевидно, непригоден для предсказания весьма неоднород-

ного критерия. Более того, при предсказании неоднородного критерия

разнородность заданий теста не обязательно означала бы дисперсию

ошибки. Хорошим примером разнородных тестов, предназначенных для

предсказания неоднородного критерия, являются традиционные тесты

интеллекта. В подобных случаях весьма желательно составить несколько


относительно однородных тестов, каждый из которых измерял бы раз-

личные фазы неоднородного критерия. Тем самым однозначная интер-

претация результатов теста могла бы сочетаться с адекватным охватом

критерия.

Самая распространенная процедура определения согласованности

выполнения заданий теста была разработана Г. Ф. Кьюдером и М. В. Ри-

чардсоном (G.F. Kuder, M.W. Richardson, 1937). Как и в методе расще-

Ill НАДЕЖНОСТЬ

двух половин теста для анализа используются данные о выполнении ис-

пытуемыми каждого задания. Из различных формул, приведенных в ука-

занной статье, широко применяется так называемая формула 20:

п(о} - ?то)

"=-т).г

В этой формуле Гц - коэффициент надежности всего теста, п -число

заданий, <-стандартное отклонение суммарных показателей теста.

Единственным новым элементом в этой формуле является сумма Е д, где

р и q -доля испытуемых, соответственно справившихся и не справивших-

ся с каждым заданием. Чтобы вычислить ? , нужно для каждого зада-

ния определить произведение р х q, а затем сложить эти произведения

по всем заданиям. Поскольку в процессе составления теста величина

р часто фиксируется для определения уровня трудности каждого задания,

этот метод определения надежности требует лишь незначительных доба-

вочных вычислений.

Можно математически доказать, что коэффициент надежности по

Кьюдеру-Ричардсону представляет собой при всех возможных разбие-

ниях теста надвое среднее значение коэффициентов, найденных методом

расщепления (L.J. Cronbach, 1951). Обычный же коэффициент надежно-

сти для расщепленного теста основан на разбиении, построенном в рас-

чете на получение эквивалентных половин. Поэтому в случае не вполне

однородного теста коэффициент Кьюдера-Ричардсона меньше получен-

ного методом расщепления. Следующий контрастный пример поясняет,

в чем причина такого расхождения. Пусть мы имеем тест из 50 заданий

25 различных видов (например, задания 1 и 2-на понимание слов, 3

и 4-на арифметическое рассуждение, 5 и 6-пространственную ориента-

цию и т.д.). Четные и нечетные задания этого теста теоретически могут

весьма тесно коррелировать друг с другом, что при использовании об-

щепринятой процедуры расщепления даст высокий коэффициент надеж-

ности. Но однородность этого теста, как и воспроизводимость успехов

и неудач по всем 50 заданиям, будет очень низкой. Поэтому в данном


примере следует ожидать, что коэффициент Кьюдера-Ричардсона ока-

жется намного ниже, чем в случае метода расщепления. Заметим, что

разность между этими двумя коэффициентами может служить для при-

близительной оценки однородности теста.

Формула Кьюдера-Ричардсона годится только для случаев, когда

выполнение заданий оценивается как правильное или ошибочное, т. е. по

принципу <все или ничего>. В некоторых тестах, однако, практикуется

более дифференцированная форма представления результатов отдельных

заданий. Например, в личностном опроснике респондент может получать

по отдельным заданиям различные числовые показатели в зависимости

от того, выбрал ли он в наборе ответов <обычно>, <иногда>, <редко>,

<никогда>. Для таких тестов выведена обобщенная формула, известная

как коэффициент альфа (L.J. Cronbach, 1951; M.R. Novick, C.Lewis, 1967).

В этой формуле вместо ? стоит So?-сумма дисперсий результатов от-

дельных заданий. Процедура состоит в нахождении дисперсии индиви-

Простой вывод этой формулы приведен в работе Р.Л.Ибела (R.L.Ebel, 1965,

р. 320-327).

И Строго говоря, это утверждение справедливо, лишь когда применяется формула

Рппня я нс. коппепяттия половин или (Ьопмула Спирмана-Брауна (M.R. Novick,

112 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

дуальных результатов по каждому заданию с последующим суммирова-

нием этих дисперсий по всем заданиям (R.L.Ebel, 1965, р. 326-330).

Формула коэффициента альфа выглядит следующим образом:

_ п( - ?о?)

" ("-1) , 1

Надежность субъективных оценок. Как мы видим, различные

типы надежности отличаются друг от друга тем, какие факторы взяты

в качестве источников дисперсии ошибки. В одном случае такая диспер-

сия означает временные колебания, в другом-различия в сериях парал-

лельных заданий, в третьем-несогласованность тестовых заданий. 1

В свою очередь, факторы, не учтенные при измерении дисперсии ошиб-

ки, в основном делятся на два типа: (а) факторы, чья дисперсия сохра-

няется в показателях, поскольку они входят в изучаемые различия, и (б)

посторонние факторы, поддающиеся экспериментальному контролю. На-

пример, в руководстве к тесту не принято сообщать об ошибках измере-

ния, которые могут появиться в результате проведения теста в отвле-

кающей обстановке или в более короткое или длительное, чем это

положено, время. Подобных отклонений можно избежать, и поэтому нет