ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.08.2024
Просмотров: 746
Скачиваний: 0
СОДЕРЖАНИЕ
Часть 1 -содержательной стороне современной тестологии (особый инте-
Глава 1. Функции и происхождение
Глава 2. Природа психологических тестов
Глава 3. Социальные и этические аспекты
Глава 4. Нормы и интерпретация
Глава 10. Тесты для специфических
Глава II. Групповое тестирование
Часть 1. Классификация. Отметьте картинку, не принадлежащую трем остальным,
Часть 1. Вербальные способности. Каждое задание начинается с пары связанных
Часть II. Математические способности. Каждое задание содержит две величи-
достаточного числа легких
заданий
м>м>я> распределение способности
.-- распределение гестовых
результатов
В. Сосредоточение результатов на верхнем конце шкалы
184 ПРИНЦИПЫ ПСИХОЛОГИЧР-СКОГО ТЕСТИРОВАНИЯ
задания, первоначальные задания изымаются или пересматриваются, ме-
няется их положение в шкале трудности, некоторым из пересмотренных
ответов приписываются новые веса. В итоге наиболее частым становится
результат, близкий к 50Їо от максимального количества очков. Тому, кто
не знаком с методами построения психологического теста, 50Їо-ный ре-
зультат может показаться поразительно низким и иногда либо слышатся
возражения против якобы слишком низкого проходного минимума оч-
ков, либо делается вывод, будто протестированная группа оказалась ис-
ключительно слабой. Несостоятельность подобных мнений сразу стано-
вится очевидной, если принять во внимание процедуру разработки
психологического теста, который сознательно конструируется и коррек-
тируется с таким расчетом, чтобы среднее количество правильно выпол-
ненных заданий составляло приблизительно 50Їо от общего их числа.
Только таким путем удается добиться максимальной дифференциации
способностей испытуемых на всех полученных в тесте уровнях. При сред-
нем, приблизительно 50Їо-ном результате создается максимальная воз-
можность получить нормальное распределение и широкий разброс инди-
видуальных показателей
Уровень трудности заданий, составляющих тест, определяет не толь-
ко средний уровень трудности теста, его минимальную и максимальную
трудности, но и разброс тестовых результатов. Как было сказано выше,
максимальный разброс полного результата теста имеет место, когда
трудность заданий в основном близка к р = 0,50. Тот факт, что подоб-
ный отбор заданий обеспечивает лучшую дифференциацию, чем в случае
широкого разброса уровней трудности, поясняет рис. 25. Три распреде-
ления суммарных результатов, приведенные на этом рисунке, получены
Р. Ибелом (R.L. Ebel, 1965) для трех тестов, состоявших каждый из 16
заданий. Задания для теста 1 были отобраны так, чтобы они группирова-
лись вблизи уровня трудности 0,50. В тесте 2 трудность заданий была
распределена по всему диапазону значений р. В тесте же 3 использова-
лись задания, для которых значения р были расположены вблизи краев
этого диапазона. Отметим, что наиболее широкий разброс результатов
теста был получен при р, сосредоточенных вокруг 0,50. Коэффициент
надежности в этом случае оказался максимальным, тогда как в случае
теста с крайними значениями трудности заданий этот коэффициент был
чрезвычайно низким. Эти примеры приведены только в целях иллюстра-
ции, но к аналогичным выводам нас приводит и более специальный ана-
лиз этой проблемы с применением статистических и экспериментальных
средств исследования (L.J. Cronbach, W.A. Warrington, 1952; F.M. Lord,
1952; F.M. Lord, M.R. Novick, 1968).
Связь между трудностью задания и назначением теста.
Стандартизованные психологические тесты в целом строятся так, чтобы
обеспечить наибольшую дифференциацию испытуемых на всех уровнях.
В действительности нормальная кривая обеспечивает более тонкое различение на
краях, чем в центре шкалы. Равная разрешающая способность во всех точках шкалы име-
ла бы место при прямоугольном распределении. Однако нормальная кривая предпочти-
тельнее для последующего статистического анализа результатов, поскольку многие суще-
ствующие статистические методы основываются на распределении, близком к нормально-
му. По этой и другим причинам составители большинства тестов, предназначенных для
общего пользования, вероятно, будут еще какое-то время ориентироваться на нормаль-
185
АНАЛИЗ ЗАДАНИЙ
Наше обсуждение трудности заданий до сих пор относилось к тестам
именно такого рода. Однако при построении тестов специального назна-
чения выбор трудности заданий, так же как и оптимальная форма их
распределения, зависит от типа необходимого различения. Так, тесты,
предназначенные для отсеивания испытуемых, должны содержать зада-
ния, для которых значения р весьма близки к установленному индексу
отбора (F.M. Lord, 1953). Например, чтобы отобрать верхние 20"/о
группы, лучше всего пользоваться заданиями с р, приблизительно рав-
Рис. 25. Соотношение между распределением результатов теста и распределением
заданий по трудности (R. L. Ebel, 1965, р. 363)
186 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ной 0,20. Поскольку при отсеивании никакой дифференциации испы-
туемых, как отсеянных, так и оставшихся, не требуется, время тестирова-
ния используется наиболее эффективно, если задания по трудности
группируются вблизи проходного результата. Отсюда, например, выте-
кает, что если тест предназначен для отбора стипендиатов, то его зада-
ния должны быть значительно труднее среднего задания для да "on по-
пуляции. Аналогично, если отбираются плохо успевающие ученики для
коррекционного обучения, задания желательно выбирать намного легче
обычных.
Еще одним примером может служить национальная программа
оценки прогресса в образовании (F.B. Womer, 1970). Эта программа за-
думывалась как попытка получить непосредственные сведения о качестве
образования в Соединенных Штатах и предусматривала обследование
тщательно подобранных репрезентативных выборок популяции на четы-
рех возрастных уровнях: 9, 13, 17и 26-35 лет. В программе никак не от-
ражались индивидуальные достижения, ее целью было описать знания,
понимание и навыки, свойственные американцам указанных возрастных
категорий. В рамках каждой области содержания для каждой возрастной
группы нужно было получить ответы на следующие три вопроса: (1) Что
знают почти все американцы? (2) Что знает типичный, или средний, аме-
риканец? (3) Что знают наиболее способные американцы? Чтобы отве-
тить на эти вопросы, были подготовлены упражнения трех уровней
трудности: одну треть составляли легкие упражнения (р = 0,9), другую
треть-упражнения средней трудности (р = 0,5) и последнюю треть-
трудные упражнения (р = 0,1). Фактически процент лиц, выполнявших
эти упражнения, каждый раз несколько отклонялся от этих значений. Од-
нако целью составителей тестов было максимальное приближение к вы-
бранным значениям р.
Третий пример, иллюстрирующий выбор трудности заданий со-
образно назначению теста, связан с тестированием владения навыком.
Напомним (см. гл. 4), что тесты владения навыком типичны для крите-
риально-ориентированного тестирования. Если назначение теста-устано-
вить, овладел ли индивид как следует основными, существенными эле-
ментами того или иного навыка или усвоил ли он знания, необходимые
для перехода к следующему этапу обучения, то трудность задания долж-
на быть на уровне 0,8-0,9. При выполнении этого условия мы можем
ожидать, что большинство обследуемых справится почти со всеми зада-
ниями. Таким образом, весьма легкие задания, которые были изъяты из
обычного стандартизованного теста из-за их низкой разрешающей спо-
собности, даже те, с которыми справляется 100Їо испытуемых, как раз
и включаются в тест владения навыком. Аналогично тест, проводимый
перед началом обучения с тем, чтобы выявить учеников, уже освоивших
подлежащие выработке навыки, должен состоять из заданий с весьма
низким р. В этом случае задания с очень низким и даже нулевым р впол-
не допустимы, поскольку они выявляют то, что еще осталось неус-
военным.
Из приведенных примеров явствует, что уровень трудности заданий
зависит от назначения теста. Хотя в большинстве случаев максимум ин-
Ввиду специфики многих тестов, термин <упражнение> к-ячяттгя Дпгтрр v--ru
187
АНАЛИЗ ЗАДАНИЙ
формации об индивидуальном уровне выполнения теста обеспечивают
задания средней трудности (0,50), решение о трудности задания нельзя
принимать бездумно, без учета того, как предполагается использовать
тест.
ВАЛИДШИСТЬ ЗАДАНИЙ
Соотношение между заданием и контрольным критерием. Все
индексы валидности заданий основаны на соотношении между выполне-
нием задания и критериальным выполнением. Любой критерий, исполь-
зуемый для определения валидности теста, годится и для валидации за-
даний, анализ которых может быть использован для повышения не
только конвергентной, но и дискриминантной валидности теста (см.
гл. 6). Задания, таким образом, можно выбирать по признаку высокой
корреляции с критерием и низкой корреляции с безотносительными
к тесту факторами, влияющими на выполнение теста испытуемым. При
разработке, например, теста на арифметическое мышление задания, зна-
чимо коррелирующие с тестом на понимание читаемого текста, должны
быть изъяты.
Поскольку обычно регистрируется лишь факт выполнения или невы-
полнения задания, измерение его валидности, как правило, означает со-
поставление дихотомического показателя (результат выполнения зада-
ния) с непрерывной переменной (критерием). В известных ситуациях
критерий может быть также дихотомичным (например, окончание кол-
леджа или отчисление из него, успех или неудача в работе). Более того,
непрерывный критерий для целей анализа может быть превращен в ди-
хотомический. На рис. 26 изображены три характеристические кривые,
иллюстрирующие основные соотношения между заданием и критерием.
Каждая из этих кривых дает представление о взаимосвязи между про-
центом справившихся с заданием испытуемых и соответствующим клас-
сом интервалов критериального показателя. Нетрудно видеть, что зада-
ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-
тельно один и тот же процент испытуемых во всем диапазоне критерия.
С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие между
процентом выполнивших задания и критериальным показателем выра-
жено более четко. Из этих двух более валидно задание 3, ибо его харак-
теристическая кривая круче идет вверх.
Рис. 26. Харокте-
.ристические кри-
вые для трех ги-
потетических зада-
188 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Характеристические кривые заданий дают наглядное представление
о различиях между заданиями с точки зрения их валидности. Вместе
с тем отбор заданий лучше осуществлять, если валидность каждого из
них выражена числовым индексом. В настоящее время при разработке
тестов используется свыше пятидесяти таких индексов. Они, в частности,
различаются по признаку применимости к дихотомическим или
непрерывным мерам. Более того, среди индексов, применимых к дихото-
мическим переменным, одни предполагают непрерывность и нормальное
распределение измеряемого с помощью теста свойства, на которое ис-
кусственно накладывается дихотомия, тогда как другие вводятся в пред-
положении истинной дихотомии. Одни меры валидности не зависят от
трудности заданий, в то время как валидность других тем выше, чем
ближе уровень трудности к 0,50.
Независимо от способа получения и исходных допущений большин-
ство индексов валидности задания дают весьма сходные результаты. Хо-
тя численные значения индексов могут быть разными, на их основе со-
храняются или отвергаются в основном одни и те же задания.
Собственно говоря, колебания данных о валидности задания от выборки
к выборке в целом больше, чем при использовании различных методов
их получения. Поэтому выбор метода часто определяется удобством вы-
числений и наличием соответствующих таблиц и номограмм. Последние
представляют собой расчетные диаграммы, по которым, например, зна-
чение корреляции между заданием и критерием легко вычисляется, если
известен процент испытуемых, справившихся с заданием в группах с вы-
соким и низким критериальным выполнением (J.P. Guilford, В. Fruchter,
1973, р. 445-458; S. Henrysson, 1971).
Использование экстремальных групп. Распространенный ме-
тод анализа заданий-сравнение числа выполнивших задание в двух
группах с контрастирующим критериальным выполнением. Если крите-
рий выражен в непрерывной шкале (как. скажем, в случае годовых оце-