ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 787

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

работе (консультировался ли кто-либо с психологом или прошел курс

психотерапии и т.д.).

Независимо от желательности сведений об интервале времени меж-

ду двумя тестированиями, какими соображениями следует руководство-

ваться при выборе этого интервала? Можно привести немало примеров

того, как надежность теста остается высокой в течение нескольких дней

или недель, но спустя десять-пятнадцать лет его результаты уже почти

не коррелируют с первоначальными. Так, многие из тестов интеллекта

для дошкольников достаточно стабильны в дошкольный период, но со-

вершенно бесполезны для предсказания, каков будет IQ ребенка в стар-

шем возрасте или во взрослом состоянии. На практике, однако, чаще

всего можно провести следующее различие. На дисперсию ошибки те-

стовых результатов обычно влияют случайные колебания с периодами

от нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-

товой надежности, стараются придерживаться небольших временных ин-

тервалов. При тестировании маленьких детей этот период должен быть

еще короче, чем у испытуемых старшего возраста, поскольку в раннем

детстве возрастные изменения происходят в течение месяца и даже

быстрее.

В целом для любого типа испытуемых интервал между двумя после-

довательными применениями теста обычно не должен превышать 6 мес.

Изменения относительного выполнения теста индивидами, происходя-

щие в более длительные промежутки времени, уместнее отнести к куму-

лятивным и постепенным, а не к чисто случайным. Более того, они, ско-

рее всего, характеризуют более широкую сферу поведения, чем та,

которая проявляется при выполнении данного теста. Общий уровень

развития индивида, его способность к обучению, к пониманию техниче-

ских устройств, его суждения об искусстве могут за 10 лет существенно

измениться. Его личностный статус с годами может заметно возрасти

или упасть вследствие обстоятельств жизни дома, в школе или условий

социального окружения, а также по таким причинам, как болезнь или

эмоциональное расстройство.

Степень влияния таких факторов на психическое развитие индивида

является важной исследовательской проблемой. Однако этот вопрос не

следует смешивать с вопросом надежности конкретного теста. Напри-

мер, при измерении надежности тестов Станфорд-Бине, как правило, со-

относят показатели, полученные с интервалом не в десять лет или даже


в один год, а в несколько недель. Конечно, с этими тестами проводились

и долгосрочные ретестовые испытания, но их результаты обычно обсу-

ждаются с точки зрения предсказуемости уровня интеллекта взрослого

на основе выполнения теста в детском возрасте, а не с точки зрения на-

дежности конкретного теста. Понятие надежности в основном ограничи-

вается краткосрочными случайными изменениями, характеризующими

выполнение теста самого по себе, а не тестируемую область поведения.

Следует отметить, что в различных поведенческих функциях обыч-

ные . колебания проявляются неодинаково. Например, на отточенности

движений пальцев могут сказаться самые незначительные изменения

в состоянии индивида, никак не влияющие на его понимание речи. Если

хотят получить общую оценку характера движений пальцев индивида,

106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

то, по всей видимости, нужно провести повторные тесты в течение не-

скольких дней; для выяснения же понимания им речи достаточно одного

сеанса тестирования. Но всякий раз необходимо обращаться к анализу

цели теста, основывая его на понимании того поведения, которое пред-

назначен предсказать тест.

Несмотря на кажущуюся простоту и очевидность, методика ретеста

при распространении на большинство психологических тестов наталки-

вается на трудности. Улучшение показателей ретеста как результат тре-

нировки будет, вероятно, различным у разных испытуемых. Более того,

если промежуток времени между начальным и повторным тестирова-

нием достаточно мал, обследуемые могут припомнить многие из своих

прежних ответов. Иными словами, при повторном тестировании память

способствует воспроизведению первоначальной картины правильных

и ошибочных ответов. Следовательно, результаты двух предъявлений

теста не будут независимыми, и корреляция между ними окажется об-

манчиво высокой. Проведение теста второй раз может также привести

к изменению его природы. В первую очередь это относится к задачам,

при решении которых нужно проявить изобретательность. Испытуемый,

однажды ухватив принцип решения, в дальнейшем может воспроизво-

дить правильный ответ, минуя промежуточные ступени. Только тесты, на

которые повторное применение не оказывает заметного влияния, при-

годны для их исследования по методу ретеста. К этой категории принад-

лежит ряд моторных тестов и тестов сенсорного различения. Для боль-


шинства психологических тестов этот метод неприменим.

Надежность взаимозаменяемых форм. Один из способов из-

бежать трудностей, присущих ретестовой надежности,-применение взаи-

мозаменяемых форм теста. Те же самые испытуемые могут тестиро-

ваться в первый раз с помощью одной формы, а второй раз-с помощью

другой, сравнимой формы. Корреляция между показателями, полученны-

ми по двум формам, служит коэффициентом надежности теста. Заметим,

что такой коэффициент надежности измеряет как временную стабиль-

ность теста, так и согласованность ответов по двум выборкам заданий

(или тестовым формам), т. е. этот коэффициент объединяет два типа на-

дежности. Поскольку оба типа существенны для большинства целей те-

стирования, надежность взаимозаменяемых форм оказывается полезной

мерой для оценки многих тестов.

Понятие выборки заданий, или выборки содержания, лежит в основе

не только данного, но и других типов надежности, о которых речь пой-

дет дальше. Поэтому рассмотрим данную концепцию подробнее. Ве-

роятно, каждому когда-то доставались на экзамене вопросы именно по

той теме, к которой он был особенно хорошо подготовлен или, напро-

тив, знал этот материал особенно плохо. Столь знакомая всем ситуация

Под параллельными (parallel), или взаимозаменяемыми (alternate) формами теста

понимаются серии заданий, не обязательно дающие первичные результаты с одинаковы-

ми М ист, но снабженные таблицами эквивалентности. Параллельные формы следует от-

личать от уравненных (matched) форм, состоявших из заданий, попарно уравненных по

структуре и содержанию, и эквивалентных (equivalent) форм, не уравненных, но тем не ме-

нее дающих результаты, обладающие весьма близкими статистическими характеристика-

"" nfiiiiee наименование упомянутых серий-сопоставимые (comparable) формы. В амери-

~"""""Ї и иные, неканонизированные названия отдельных

""- ""tud). дублированные

107

НАДЕЖНОСТЬ

поясняет дисперсию ошибки, связанную с выборочным представлением

содержания. В какой степени показатели данного теста зависят от факто-

ров, проявляющих себя именно в данном наборе заданий? И если другой

исследователь, работая независимо от нас, подготовил бы другой тест

в соответствии с теми же требованиями, то насколько бы результаты

этих тестов отличались друг от друга? Предположим, что для теста сло-

варного запаса был составлен список из 40 слов. Предположим делее,


что с той же целью был составлен второй список из 40 других слов, при-

чем были соблюдены все предосторожности, чтобы трудность теста

осталась той же самой. Различия в показателях, полученных в двух те-

стах одними и теми же испытуемыми, иллюстрирует рассматриваемый

тип дисперсии ошибки. Под действием факторов, связанных с прошлым

опытом различных испытуемых, относительная трудность двух списков

будет несколько меняться от одного индивида к другому. Например,

первый список может содержать большее число слов, незнакомых испы-

туемому А, чем второй, в котором, в свою очередь, могло оказаться не-

пропорционально много слов, незнакомых испытуемому В. Если сло-

варный запас (т.е. истинные показатели) обоих испытуемых приблизи-

тельно одинаков, то В тем не менее превзойдет А по первому списку,

тогда как А превзойдет В по второму. Относительное положение испы-

туемых А и В по данным двум спискам окажется взаимно противопо-

ложным из-за случайных различий в подборе слов.

Как и при ретестовой надежности, надежность взаимозаменяемых

форм всегда должна дополняться указанием длительности временного

интервала, разделяющего два предъявления теста, а также описанием

происшедших за это время событий. Если обе формы применяются не-

посредственно одна за другой, то корреляция отражает надежность, отно-

сящуюся к замене форм, а не к временному фактору. Дисперсия ошибки

в этом случае вызывается колебаниями в выполнении двух наборов зада-

ний, а не временным фактором.

При разработке взаимозаменяемых форм, безусловно, следует поза-

ботиться о том, чтобы они были действительно таковыми. Важно, чтобы

параллельные формы были бы независимо построенными тестами, отве-

чающими одним и тем же требованиям. Такие тесты должны содержать

одинаковое число заданий, представленных в одной и той же форме и

с однотипным содержанием. Диапазон и уровни трудности заданий так-

же должны быть одинаковыми. Инструкции, временные рамки, поясняю-

щие примеры, формат бланков и другие аспекты тестирования также не-

обходимо проверить на сопоставимость.

Следует добавить, что наличие пареллельных форм желательно и по

другим соображениям, независимо от определения надежности теста.

Взаимозаменяемые формы полезны при катамнестических исследованиях

и при изучении влияния определенных экспериментальных факторов на


выполнение теста. Применение нескольких взаимозаменяемых форм

уменьшает действие искушенности в тестировании и вероятность обма-

на.

Хотя по сравнению с ретестовой надежностью надежность взаимоза-

меняемых форм применяется достаточно широко, она также имеет свои

недостатки. Прежде всего, если изучаемые функции поведения подвер-

жены значительному влиянию фактора тренировки, использование па-

раллельных форм ослабит, но не устранит его полностью. Конечно, если

" -----""", "е:т,,пт,пг,пт. nnun in тп -лее-, уттучтпение оезультатов

108 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

при повторном проведении теста, то это не повлияло бы на корреляцию

показателей, поскольку добавление постоянной величины к каждому ре-

зультату не меняет коэффициента корреляции. Однако, скорее всего.

улучшение результатов для разных испытуемых будет неодинаковым

вследствие индивидуальных различий в опыте работы с подобным мате-

риалом, в мотивации участия в тесте и по других причинам. В этих усло-

виях эффект тренировки является дополнительным источником диспер-

сии, снижающим корреляцию между двумя формами. Но если влияние

тренированности невелико, то снижение будет ничтожным.

Другая проблема связана с возможным изменением природы теста

при повторном его проведении. Например, если в параллельных задачах

на сообразительность применен один и тот же принцип, то испытуемый,

однажды найдя решение, и во второй раз применит его. В подобных слу-

чаях одной замены содержания задания явно недостаточно для того,

чтобы избежать эффекта переноса. Наконец, следует добавить, что для

многих тестов взаимозаменяемые формы отсутствуют ввиду трудностей,

связанных с их составлением. В силу этих причин часто приходится

обращаться к другим методам оценки надежности.

Метод расщепления. Меру надежности можно определить и на

основании однократного применения единственной формы теста, поль-

зуясь для этого процедурой расщепления. При таком способе каждый ис-

пытуемый получает два результата благодаря разбиению теста на две

сопоставимые части. Очевидно, что надежность, найденная методом рас-

щепления, является мерой согласованности выборок содержания. Вре-

менная стабильность показателей в ней не представлена, поскольку при-

меняется только один сеанс тестирования. Этот тип коэффициента

надежности иногда называют коэффициентом внутренней согласованно-