ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 721

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

нию следующих друг за другом двух эквивалентных форм теста. Каждая

форма, однако, вдвое короче целого теста, тогда как результаты испы-

туемого определяются по всему тесту. Поэтому необходимо воспользо-

ваться формулой Спирмана-Брауна или какой-либо другой формулой

этого типа для определения надежности всего теста.

Если раздельное применение двух половин теста недопустимо, то

вместо него можно воспользоваться разделением полного времени теста

на четыре части с регистрацией результатов отдельно для каждой че-

тверти. Это легко осуществить, прося испытуемого по сигналу экспери-

ментатора отметить крестиком выполняемое в этот момент задание.

Число заданий, выполненных за первую и четвертую части полного вре-

менного лимита, составит результат по одной из сравниваемых половин

теста. Показатель другой половины теста будет равен числу заданий,

с которыми испытуемый справился за вторую и третью четверти. Такая

комбинация четвертей способствует нейтрализации кумулятивных эффек-

тов тренировки, утомления и других факторов. Этот метод лучше всего

подходит для тестов, задания которых не особенно отличаются друг от

друга по степени трудности.

В каких случаях временной компонент следует считать суще-

ственным? При каких условиях нужно соблюдать рассмотренные выше

меры предосторожности? Очевидно, само по себе использование лими-

тов времени еще не означает, что мы имеем дело с тестом на скорость.

Если все испытуемые укладываются в отведенное время, то скорость ра-

боты не сказывается на показателях. В качестве приблизительной меры

существенности скоростного компонента, казалось бы, можно взять про-

цент испытуемых, не успевающих закончить тест. Однако даже если ник-

то не укладывается в отведенные временные рамки, скорость выполне-

ния может оказаться тут ни при чем. Например, если все испытуемые

выполнят 40 заданий из 50, то индивидуальные различия в скорости от-

сутствуют, хотя никто не успевает выполнить весь тест.

Существенным здесь оказывается следующий вопрос: <В какой сте-

пени индивидуальные различия в тестовых результатах определяются

скоростью?> Или более специальным языком: <Какую долю в суммар-

ной дисперсии тестовых показателей составляет дисперсия скорости?>

Эту долю можно приблизительно оценить, определяя диспеосию числа

117

НАДЕЖНОСТЬ


Таблица II

Коэффициенты надежности четырех тестов элемен-

тарных умственных способностей для детей 11-17

лет (1-е издание) (A. Anastasi, J. Drake, 1954)

дисперсию тестовых результатов (ст/ст). Для только что приводившего-

ся примера, когда все испытуемые выполнили 40 заданий, числитель

этой дроби равен нулю, поскольку отсутствуют индивидуальные разли-

чия в числе выполненных заданий (с = 0). Таким образом, в тесте воз-

можностей данный индекс будет равен нулю. Напротив, если суммарная

дисперсия теста (of) определяется индивидуальными различиями в ско-

рости, то обе дисперсии будут равны и их отношение обратится в 1. Для

определения этого отношения разработано несколько более совер-

шенных процедур, но их детальное обсуждение выходит за рамки на-

стоящей книги (L.J.Cronbah, W.G.Warrington, 1951; H.Gulliksen,

1950a,b; L. Guttaman, 1955; G.C. Helmstadter, D.H. Ortmeyer, 1953).

Примером влияния скоростного компонента на коэффициент надеж-

ности, определенный при одноразовом предъявлении теста, могут слу-

жить данные исследования первого издания теста элементарных ум-

ственных способностей (A. Anastasi, J. Drake, 1954). В этой работе

надежность каждого теста сначала определялась по методу расщепления

теста на четные и нечетные задания. Полученные значения (см. первую

строку табл. II) оказались весьма близкими к приведенным в руковод-

стве к тексту. Затем коэффи-

циенты надежности были вы-

числены корреляцией показа-

телей, полученных разделе-

нием теста на два субтеста,

для которых были установле-

ны отдельные лимиты време-

ни. Эти коэффициенты соста-

вили вторую строку табл. II.

Вычисление <скоростных ин-

дексов> показало, что в тесте

на понимании слов преобла-

дает компонент возможнос-

тей, тогда как тест на рас-

суждение в большей мере

подвержен влиянию скорос-

ти. Из табл. II видно, что

при учете скоростного ком-

понента надежность теста на

пространственное восприя-

тие составила 0,75, т. е. оказалась значительно ниже значения 0,90, полу-

ченного методом обычного расщепления. Надежность теста на рассужде-

ние упала с 0,96 до 0,87, а числового теста-с 0,92 до 0,83. В то же время

надежность теста на понимание слов, содержавшего лишь минимальный

скоростной компонент, почти не отличалась для обоих методов расчета.

К соображениям самой А. Анастази следует добавить, что в этих случаях решение

о введении <скоростного фактора> принимается чисто эмпирически. Так, в детских тестах


Векслера (WISC, WISC-R) время выполнения вербальных субтестов не ограничивается,

в то время как для субтестов действия указаны временные лимиты. Нельзя не отметить,

что в интеллектуальной деятельности скорость решения задач не говорит еще о пре-

дельных (максимальных) возможностях, о глубине интеллекта. Учет скорости может приве-

сти к тому, что ребенок, который способен справиться со всеми заданиями субтеста, не су-

меет сделать и половину из них в отведенное время и получит более низкий балл, чем его

сверстник, который за это время выполнит на одно задание больше, но это задание

является для него вообще пределом сложности, далее которого он двигаться не может.

(Прим. ред.)

Определение коэффициента надежностиё 1s: я ?18м

Is>.u z ft с,ай

Я

с: аа.С о Вч. U

Методом разделения за-

даний теста по четным

и нечетным номерам 0,94 0,96 0,9 0,92

Методом разделения за-

даний теста по вре-

менным лимитам 0,9

0,87 0,75 0,83

118 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ЗАВИСИМОСТЬ КОЭФФИЦИЕНТА НАДЕЖНОСТИ

ОТ ТЕСТИРУЕМОЙ ВЫБОРКИ

Гетерогенность. На величину коэффициента надежности серьезное

влияние оказывает состав группы, используемой для определения этого

коэффициента. В первую очередь на любой коэффициент корреляции

влияет диапазон индивидуальных различий в группе. Если, допустим,

грамотность всех членов группы находится примерно на одном уровне,

то для этой группы корреляция грамотности с любыми другими способ-

ностями будет нулевой. Иначе говоря, по показателю грамотности нель-

зя предсказать положение индивида в группе по какому-либо иному

показателю.

Другим, менее контрастным примером может служить корреляция

между двумя тестами способностей-словарного запаса и арифметиче-

ского мышления. Если эти тесты предъявляются в достаточно однород-

ной группе, скажем 300 студентам второго курса, то корреляция между

соответствующими показателями, видимо, окажется близкой к нулю.

Внутри отобранной группы студентов колледжа вряд ли удастся обнару-

жить какую-либо связь между вербальными способностями и способ-

ностью действовать с числами. Но проводя те же тесты на гетерогенной

выборке из 300 испытуемых-от тяжелых олигофренов до выпускников

колледжей, мы, несомненно, получим высокую корреляцию между рас-

сматриваемыми показателями. Умственно отсталые по обоим тестам


получат более низкие показатели, чем лица с высшим образованием.

Связь между обоими показателями будет отмечена и для других под-

групп внутри столь гетерогенной выборки.

На рис. 12 приведена гипотетическая диаграмма рассеяния, являю-

щаяся иллюстрацией зависимости коэффициентов корреляции от диапа-

зона индивидуальных различий внутри группы. Диаграмма отражает вы-

сокую положительную корреляцию по всей гетерогенной группе:

показатели тесно сгруппированы вдоль диагонали, идущей от левого

нижнего к правому верхнему углу. Если теперь рассмотреть только под-

группу, попадающую в небольшой прямоугольник в правой части диа-

граммы, то становится очевидным, что корреляция между двумя пере-

менными в этой подгруппе близка к нулю. Индивиды, попадающие

в выделенную ограниченную область значений обеих переменных, пред-

ставляют собой весьма гомогенную группу, наподобие упомянутой выше

группы второкурсников. Как и все коэффициенты корреляции, коэффи-

циенты надежности зависят от однородности выборки, на которой они

определяются. Следовательно, если коэффициент надежности, приво-

димый в руководстве к тесту, был определен на группе учеников IV-XII

классов, то нельзя считать, что коэффициент надежности будет столь же

высоким, скажем, в выборке восьмиклассников. При использовании теста

для выявления индивидуальных различий в пределах более однородной

выборки, чем нормативная группа, коэффициент надежности для этой

выборки должен быть определен заново. В элементарных учебниках по

статистике приводятся формулы расчета изменения коэффициента на-

дежности при увеличении или уменьшении стандартной групповой дис-

персии. Однако предпочтительней пользоваться коэффициентами надеж-

ности, вычисленными эмпирически на группе, сравнимой с той,

к которой применяется тест. Для тестов с широким возрастным диапазо-

ном и измеряющим различные способности в руководстве должны при-

119

НАДЕЖНОСТЬ

водиться отдельные коэффициенты надежности для относительно одно-

родных подгрупп внутри выборки стандартизации.

Уровень способностей. Коэффициент надежности зависит не

только от степени индивидуальных различий в выборке, но и от среднего

уровня способностей данной группы. Влияние последнего фактора обыч-

но нельзя предсказать или оценить, пользуясь статистическими метода-


ми. Это влияние может быть определено лишь эмпирическим путем,

проведением теста на группах, отличающихся друг от друга по возрасту

или уровню способностей. Разницу в надежности единичного теста мож-

но объяснить тем, что слегка различающиеся сочетания способностей из-

меряются степенью трудности теста, или же тем, что она есть результат

статистических свойств самой шкалы, как это имеет место в случае те-

стов Станфорд-Бине (S.R.Pinneau, 1961, гл. 5). Для различных возра-

стов и уровней IQ, коэффициент надежности тестов Станфорд-Бине ме-

няется от 0,83 до 0,98. Надежность других тестов может быть

относительно низкой для младших и менее способных групп, поскольку

Рис. 12. Влияние ограничения диапазона на коэффициент корреляции

см 1 а> 1 а) //

/////

/////

/////////

///////////

///////////////

//////////////

///////////////

////////////////

////////////////

//////////////////

//////////////

/////////////////

///////////////

////////////

////////////////

////////////

///////

/////////

///////

//////

///////////

//////////

/////

//////

/////

////

///

/

120 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

на их показателях сильно сказывается склонность испытуемых к угады-

ванию, в таком случае данный тест вообще не следует применять.

Очевидно, что каждый коэффициент надежности должен дополнять-

ся полным описанием типа группы, на которой он определялся. Особое

внимание следует уделять индивидуальным различиям и уровню способ-

ностей членов выборки. Приводимый коэффициент надежности приме-

ним только к группам, подобным тем, на которых он был определен.

В настоящее время при разработке тестов все чаще применяется разбие-

ние стандартизованной выборки на более однородные подгруппы по

признаку возраста, пола, года обучения, рода занятий и т. п., причем для

каждой такой подгруппы приводятся свои коэффициенты надежности.

В этом случае коэффициент надежности более соответствует тем выбор-

кам, на которых тест применяется на практике.

СТАНДАРТНАЯ ОШИБКА ИЗМЕРЕНИЯ

Интерпретация индивидуальных результатов. Надежность теста

можно выразить в виде стандартной ошибки измерения (ст"), называемой

также стандартной ошибкой показателя. Эта мера особенно удобна для

интерпретации индивидуальных результатов. Следовательно, для целей

тестирования эта мера более полезна, чем коэффициент надежности. Зная

коэффициент надежности теста, стандартную ошибку измерения легко