ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 746

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

достаточного числа легких

заданий

м>м>я> распределение способности

.-- распределение гестовых

результатов

В. Сосредоточение результатов на верхнем конце шкалы

184 ПРИНЦИПЫ ПСИХОЛОГИЧР-СКОГО ТЕСТИРОВАНИЯ

задания, первоначальные задания изымаются или пересматриваются, ме-

няется их положение в шкале трудности, некоторым из пересмотренных

ответов приписываются новые веса. В итоге наиболее частым становится

результат, близкий к 50Їо от максимального количества очков. Тому, кто

не знаком с методами построения психологического теста, 50Їо-ный ре-

зультат может показаться поразительно низким и иногда либо слышатся

возражения против якобы слишком низкого проходного минимума оч-

ков, либо делается вывод, будто протестированная группа оказалась ис-

ключительно слабой. Несостоятельность подобных мнений сразу стано-

вится очевидной, если принять во внимание процедуру разработки

психологического теста, который сознательно конструируется и коррек-

тируется с таким расчетом, чтобы среднее количество правильно выпол-

ненных заданий составляло приблизительно 50Їо от общего их числа.

Только таким путем удается добиться максимальной дифференциации

способностей испытуемых на всех полученных в тесте уровнях. При сред-

нем, приблизительно 50Їо-ном результате создается максимальная воз-

можность получить нормальное распределение и широкий разброс инди-

видуальных показателей

Уровень трудности заданий, составляющих тест, определяет не толь-

ко средний уровень трудности теста, его минимальную и максимальную

трудности, но и разброс тестовых результатов. Как было сказано выше,

максимальный разброс полного результата теста имеет место, когда

трудность заданий в основном близка к р = 0,50. Тот факт, что подоб-

ный отбор заданий обеспечивает лучшую дифференциацию, чем в случае

широкого разброса уровней трудности, поясняет рис. 25. Три распреде-

ления суммарных результатов, приведенные на этом рисунке, получены

Р. Ибелом (R.L. Ebel, 1965) для трех тестов, состоявших каждый из 16

заданий. Задания для теста 1 были отобраны так, чтобы они группирова-

лись вблизи уровня трудности 0,50. В тесте 2 трудность заданий была

распределена по всему диапазону значений р. В тесте же 3 использова-

лись задания, для которых значения р были расположены вблизи краев

этого диапазона. Отметим, что наиболее широкий разброс результатов


теста был получен при р, сосредоточенных вокруг 0,50. Коэффициент

надежности в этом случае оказался максимальным, тогда как в случае

теста с крайними значениями трудности заданий этот коэффициент был

чрезвычайно низким. Эти примеры приведены только в целях иллюстра-

ции, но к аналогичным выводам нас приводит и более специальный ана-

лиз этой проблемы с применением статистических и экспериментальных

средств исследования (L.J. Cronbach, W.A. Warrington, 1952; F.M. Lord,

1952; F.M. Lord, M.R. Novick, 1968).

Связь между трудностью задания и назначением теста.

Стандартизованные психологические тесты в целом строятся так, чтобы

обеспечить наибольшую дифференциацию испытуемых на всех уровнях.

В действительности нормальная кривая обеспечивает более тонкое различение на

краях, чем в центре шкалы. Равная разрешающая способность во всех точках шкалы име-

ла бы место при прямоугольном распределении. Однако нормальная кривая предпочти-

тельнее для последующего статистического анализа результатов, поскольку многие суще-

ствующие статистические методы основываются на распределении, близком к нормально-

му. По этой и другим причинам составители большинства тестов, предназначенных для

общего пользования, вероятно, будут еще какое-то время ориентироваться на нормаль-

185

АНАЛИЗ ЗАДАНИЙ

Наше обсуждение трудности заданий до сих пор относилось к тестам

именно такого рода. Однако при построении тестов специального назна-

чения выбор трудности заданий, так же как и оптимальная форма их

распределения, зависит от типа необходимого различения. Так, тесты,

предназначенные для отсеивания испытуемых, должны содержать зада-

ния, для которых значения р весьма близки к установленному индексу

отбора (F.M. Lord, 1953). Например, чтобы отобрать верхние 20"/о

группы, лучше всего пользоваться заданиями с р, приблизительно рав-

Рис. 25. Соотношение между распределением результатов теста и распределением

заданий по трудности (R. L. Ebel, 1965, р. 363)

186 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ной 0,20. Поскольку при отсеивании никакой дифференциации испы-

туемых, как отсеянных, так и оставшихся, не требуется, время тестирова-

ния используется наиболее эффективно, если задания по трудности

группируются вблизи проходного результата. Отсюда, например, выте-

кает, что если тест предназначен для отбора стипендиатов, то его зада-


ния должны быть значительно труднее среднего задания для да "on по-

пуляции. Аналогично, если отбираются плохо успевающие ученики для

коррекционного обучения, задания желательно выбирать намного легче

обычных.

Еще одним примером может служить национальная программа

оценки прогресса в образовании (F.B. Womer, 1970). Эта программа за-

думывалась как попытка получить непосредственные сведения о качестве

образования в Соединенных Штатах и предусматривала обследование

тщательно подобранных репрезентативных выборок популяции на четы-

рех возрастных уровнях: 9, 13, 17и 26-35 лет. В программе никак не от-

ражались индивидуальные достижения, ее целью было описать знания,

понимание и навыки, свойственные американцам указанных возрастных

категорий. В рамках каждой области содержания для каждой возрастной

группы нужно было получить ответы на следующие три вопроса: (1) Что

знают почти все американцы? (2) Что знает типичный, или средний, аме-

риканец? (3) Что знают наиболее способные американцы? Чтобы отве-

тить на эти вопросы, были подготовлены упражнения трех уровней

трудности: одну треть составляли легкие упражнения (р = 0,9), другую

треть-упражнения средней трудности (р = 0,5) и последнюю треть-

трудные упражнения (р = 0,1). Фактически процент лиц, выполнявших

эти упражнения, каждый раз несколько отклонялся от этих значений. Од-

нако целью составителей тестов было максимальное приближение к вы-

бранным значениям р.

Третий пример, иллюстрирующий выбор трудности заданий со-

образно назначению теста, связан с тестированием владения навыком.

Напомним (см. гл. 4), что тесты владения навыком типичны для крите-

риально-ориентированного тестирования. Если назначение теста-устано-

вить, овладел ли индивид как следует основными, существенными эле-

ментами того или иного навыка или усвоил ли он знания, необходимые

для перехода к следующему этапу обучения, то трудность задания долж-

на быть на уровне 0,8-0,9. При выполнении этого условия мы можем

ожидать, что большинство обследуемых справится почти со всеми зада-

ниями. Таким образом, весьма легкие задания, которые были изъяты из

обычного стандартизованного теста из-за их низкой разрешающей спо-

собности, даже те, с которыми справляется 100Їо испытуемых, как раз

и включаются в тест владения навыком. Аналогично тест, проводимый

перед началом обучения с тем, чтобы выявить учеников, уже освоивших


подлежащие выработке навыки, должен состоять из заданий с весьма

низким р. В этом случае задания с очень низким и даже нулевым р впол-

не допустимы, поскольку они выявляют то, что еще осталось неус-

военным.

Из приведенных примеров явствует, что уровень трудности заданий

зависит от назначения теста. Хотя в большинстве случаев максимум ин-

Ввиду специфики многих тестов, термин <упражнение> к-ячяттгя Дпгтрр v--ru

187

АНАЛИЗ ЗАДАНИЙ

формации об индивидуальном уровне выполнения теста обеспечивают

задания средней трудности (0,50), решение о трудности задания нельзя

принимать бездумно, без учета того, как предполагается использовать

тест.

ВАЛИДШИСТЬ ЗАДАНИЙ

Соотношение между заданием и контрольным критерием. Все

индексы валидности заданий основаны на соотношении между выполне-

нием задания и критериальным выполнением. Любой критерий, исполь-

зуемый для определения валидности теста, годится и для валидации за-

даний, анализ которых может быть использован для повышения не

только конвергентной, но и дискриминантной валидности теста (см.

гл. 6). Задания, таким образом, можно выбирать по признаку высокой

корреляции с критерием и низкой корреляции с безотносительными

к тесту факторами, влияющими на выполнение теста испытуемым. При

разработке, например, теста на арифметическое мышление задания, зна-

чимо коррелирующие с тестом на понимание читаемого текста, должны

быть изъяты.

Поскольку обычно регистрируется лишь факт выполнения или невы-

полнения задания, измерение его валидности, как правило, означает со-

поставление дихотомического показателя (результат выполнения зада-

ния) с непрерывной переменной (критерием). В известных ситуациях

критерий может быть также дихотомичным (например, окончание кол-

леджа или отчисление из него, успех или неудача в работе). Более того,

непрерывный критерий для целей анализа может быть превращен в ди-

хотомический. На рис. 26 изображены три характеристические кривые,

иллюстрирующие основные соотношения между заданием и критерием.

Каждая из этих кривых дает представление о взаимосвязи между про-

центом справившихся с заданием испытуемых и соответствующим клас-

сом интервалов критериального показателя. Нетрудно видеть, что зада-

ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-


тельно один и тот же процент испытуемых во всем диапазоне критерия.

С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие между

процентом выполнивших задания и критериальным показателем выра-

жено более четко. Из этих двух более валидно задание 3, ибо его харак-

теристическая кривая круче идет вверх.

Рис. 26. Харокте-

.ристические кри-

вые для трех ги-

потетических зада-

188 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

Характеристические кривые заданий дают наглядное представление

о различиях между заданиями с точки зрения их валидности. Вместе

с тем отбор заданий лучше осуществлять, если валидность каждого из

них выражена числовым индексом. В настоящее время при разработке

тестов используется свыше пятидесяти таких индексов. Они, в частности,

различаются по признаку применимости к дихотомическим или

непрерывным мерам. Более того, среди индексов, применимых к дихото-

мическим переменным, одни предполагают непрерывность и нормальное

распределение измеряемого с помощью теста свойства, на которое ис-

кусственно накладывается дихотомия, тогда как другие вводятся в пред-

положении истинной дихотомии. Одни меры валидности не зависят от

трудности заданий, в то время как валидность других тем выше, чем

ближе уровень трудности к 0,50.

Независимо от способа получения и исходных допущений большин-

ство индексов валидности задания дают весьма сходные результаты. Хо-

тя численные значения индексов могут быть разными, на их основе со-

храняются или отвергаются в основном одни и те же задания.

Собственно говоря, колебания данных о валидности задания от выборки

к выборке в целом больше, чем при использовании различных методов

их получения. Поэтому выбор метода часто определяется удобством вы-

числений и наличием соответствующих таблиц и номограмм. Последние

представляют собой расчетные диаграммы, по которым, например, зна-

чение корреляции между заданием и критерием легко вычисляется, если

известен процент испытуемых, справившихся с заданием в группах с вы-

соким и низким критериальным выполнением (J.P. Guilford, В. Fruchter,

1973, р. 445-458; S. Henrysson, 1971).

Использование экстремальных групп. Распространенный ме-

тод анализа заданий-сравнение числа выполнивших задание в двух

группах с контрастирующим критериальным выполнением. Если крите-

рий выражен в непрерывной шкале (как. скажем, в случае годовых оце-