ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.08.2024

Просмотров: 718

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Глава 8. Анализ заданий

Знакомство с основными понятиями и методами анализа заданий, а так-

же с другими фазами построения теста может оказаться полезным при

оценке опубликованных тестов. Помимо этого анализ заданий имеет

прямое отношение к составлению неформальных локальных тестов типа

подготовленных учителем для работы в классе опросов или конт-

рольных работ. Некоторые из рассматриваемых ниже общих принципов

подготовки эффективных заданий, а также простые статистические при-

емы их анализа послужат совершенствованию предъявляемых в классе

тестов и могут быть применены даже к небольшим группам.

В заданиях может анализироваться как их качественная сторона, т. е.

их содержание и форма, так и количественная, т.е. их статистические

свойства. Качественный анализ включает рассмотрение валидности по

содержанию (см. гл. 6) и оценку эффективности письменных заданий,

п кптппой пойдет оечь в гл. 14. Количественный анализ означает

180 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ность и надежность теста в конечном счете зависят от свойств заданий,

и их предварительный анализ позволяет повысить эти свойства теста.

Устраняя, добавляя, заменяя или пересматривая отдельные задания,

можно усовершенствовать тест в целом.

Анализ заданий позволяет сократить тест, повышая в то же время

его валидность и надежность. При прочих равных условиях более

длинный тест валиднее и надежнее, чем более короткий. Влияние увели-

чения и сокращения теста на коэффициент надежности обсуждалось

в гл. 5, где также была приведена формула Спирмана-Брауна для оцен-

ки этого влияния. Согласно этой формуле, надежность теста меняется,

когда изъятые задания эквивалентны оставшимся, а вновь вводимые-

уже имеющимся. Аналогичные изменения валидности имеют место, когда

отбрасываются или добавляются задания, обладающие эквивалентной

валидностью. Однако такие оценки влияния увеличения или сокращения

теста на его надежность и валидность действительны только для случай-

ного отбора заданий, проводимого без их анализа. Когда же сокращение

теста идет за счет устранения наименее удачных заданий, результатом

может быть повышение его валидности и надежности.

ТРУДНОСТЬ ЗАДАНИЙ

Процент справившихся с заданием. Чаще всего трудность задания


определяется процентом испытуемых, давших правильный ответ. Чем

легче задание, тем выше этот процент. Слово, значение которого пра-

вильно указало 70Їо выборки стандартизации (р = 0,70), считается более

легким, чем слово, которое знают только 15Їо (р == 0,15). Обычно зада-

ния располагаются в порядке нарастания трудности, так, чтобы обсле-

дуемый начинал с относительно легких заданий и затем переходил ко

все более сложным. Такое расположение дает индивиду больше уверен-

ности и снижает вероятность того, что он, затратив слишком много

времени на задания, которые для него слишком трудны, упустит из вида

те, которые ему по силам.

В процессе составления теста задания подбираются так, чтобы они

соответствовали определенному уровню трудности. Большинство стан-

дартизованных тестов способностей предназначены для как можно более

точной оценки индивидуального уровня развития способности, и если

в таком тесте никто не может справиться с заданием, то оно оказывается

просто лишним грузом. То же можно сказать и о заданиях, с которыми

справляются все. Ни те, ни другие не несут никакой информации об ин-

дивидуальных различиях. А поскольку такие задания не влияют на ва-

риативность тестовых результатов, они ничего не прибавляют к надеж-

ности или валидности теста. Чем ближе трудность задания к 1,00 или

к 0, тем менее дифференцированную информацию можно получить с его

помощью. И наоборот, чем ближе уровень трудности к 0,50, тем выше

его разрешающая способность. Предположим, что из 100 испытуемых 50

справились и 50 не справились с заданием {р == 0,50). Это задание позво-

ляет нам провести попарное различие между каждым, кто справился

и кто не справился с заданием, что дает 50 х 50 = 2500 сравнений или

битов различительной информации. При р = 0,70 мы будем иметь 70 х

х 30 == 2100 битов информации, при р == 0,90-90 х 10 = 900 битов,

а ппи п == I Oh-inn у п-т- n To " .-..---- --- ----

181

АНАЛИЧ ЗАДАНИЙ

Таким образом выходит, что для максимальной дифференциации все

задания должны быть на уровне трудности 0,50. Решение, однако, ослож-

няется тем фактом, что в пределах одного теста задания могут коррели-

ровать друг с другом. Чем однороднее тест, тем выше эти корреляции.

В экстремальной ситуации, если все задания скоррелированы и имеют

уровень трудности 0,50, то одни и те же 50 испытуемых справятся

с каждым заданием. В итоге одна половина обследованных покажет


IOOo-ный результат, а результатом другой половины будет ноль. Ввиду

взаимокорреляции заданий лучше всего выбирать их так, чтобы уровень

трудности отдельных заданий имел некоторый умеренный разброс, но

в среднем составлял 0,50.

Интервальные шкалы. Процент испытуемых, справляющихся

с заданием, соответствует степени его трудности в порядковой шкале,

т.е. правильно указывает ранговый порядок, или относительную труд-

ность заданий. Если, к примеру, процент справившихся с заданием 1, 2

и 3 соответственно равен 30, 20 и 10, то мы можем заключить, что зада-

ние 1-самое легкое, а задание 3-самое трудное из них. Но мы не мо-

жем утверждать, что различие в трудности между заданиями 1 и 2 то же,

что и между заданиями 2 и 3. Равные разности процентов будут соответ-

ствовать равным различиям трудности только для прямоугольного рас-

пределения, т.е. для равномерного распределения случаев по всему диа-

пазону. Эта проблема аналогична той, с которой мы встретились в свя:чи

с процентилями, также основанными на процентах случаев. Напомним

(см. гл. 4), что процентили не являю юя равными единицами и меняклся

по величине от центра к краям распределения (рис. 4, гл. 4).

Если исходить из нормального распределения свойства, измеряемо-

го заданием, то уровень трудности можно чьи. .лить в иервальной

шкале с фиксированной единицей, пользуясь <аблицей частот нормаль-

ного распределения. В гл. 4 отмечалось, например, что примерно 34Їо

случаев при нормальном распределении приходится на интервал в 1ст

в обоих направлениях от среднего значения (рис. 3, гл. 4). Принимая это

во внимание, рассмотрим рис. 22, на котором представлен уровень труд-

ности задания, выполненного 84Ї испытуемых. Поскольку испытуемые,

84%

Рис. 22. Соотноше-

ние между процен-

-С.. :, i. аИВШИХСЯ С

;... .. г. и его

.,,.:". (1.о при

нормальном рас-

пределении

182 ПРИНЦИПЫ психологичг.ского ТЕСТИРОВАНИЯ

выполнившие задание, относятся к верхней части распределения, то эти

84Їо займут всю правую половину распределения (50%) и часть (34"д) ле-

вой половины (50 + 34 = 84).

Таким образом, как видно из рис. 22, трудность задания приходится

на 1ст слева от среднего значения. Задание, выполненное 16% группы, бу-

дет соответствовать 1ст справа от среднего, поскольку на область справа

от этой точки приходится 16% случаев (50 -34 = 16). Задание, выпол-

ненное половиной группы, соответствует среднему распределению, т.е.


нулю этой шкалы, положительные значения которой относятся к более

трудным, а отрицательные-к менее трудным заданиям. Уровень трудно-

сти, отвечающий любому проценту справившихся с заданием, можно

найти по таблице нормального распределения, имеющейся в любом

учебнике по статистике.

Поскольку представление трудности заданий в единицах стандартно-

го отклонения нормального распределения сопряжено с использованием

отрицательных чисел и десятичных дробей, такие значения обычно пере-

водят в более удобную шкалу. Одна из таких шкал Д, используемая

Службой тестирования в образовании при разработке тестов, связана со

шкалой (7 следующим соотношением:

Л = 13 + 4х,

где х-трудность задания, выраженная в единицах стандартного отклоне-

ния нормального распределения. Константы 13и4 выбраны произволь-

но с тем, чтобы избежать отрицательных значений и получить достаточ-

но широкий диапазон величин, позволяющий обходиться без десятичных

дробей. Задание, выполняемое почти всеми (точнее, в 99,8% случаев)

и приходящееся на - 3(7, имеет А, равное 13+ 4х(- 3) = 1. Это самое

низкое значение для большинства групп. В противоположность этому за-

дание, с которым справляется 0,13% испытуемых, соответствует 3(7,

и для него Д = 13+4 х 3 = 25. Среднее по трудности задание с ну-

левым значением в шкале ст будет иметь А = 13. Таким образом, шкала

устроена так, что практически все задания охватываются диапазоном

значений А от 1 до 25, причем заданию средней трудности для каждой

данной группы соответствует число 13.

Важным практическим преимуществом шкалы А перед другими ана-

логичными шкалами является то, что для нее составлена таблица

(С. Т. Fan, 1952), с помощью которой по значению р (т.е. по относитель-

ному количеству выполнивших задание) можно непосредственно найти А.

Эта таблица избавляет от необходимости отыскивать сначала место

задания в нормальном распределении и затем переходить к А. На прак-

тике чаще всего можно обойтись порядковой мерой трудности задания,

такой, как величина р. Если же намечается провести более точный стати-

стический анализ, требующий измерения трудности в интервальной шка-

ле, то определить значение А можно без особых усилий.

Распределение результатов теста. Трудность теста в целом,

разумеется, непосредственно зависит от трудности заданий, из которых

он состоит. Полная проверка трудности всего теста применительно к по-


пуляции, для которой он предназначен, осуществляется с помощью рас-

пределения суммарных результатов. Если выборка стандартизации ре-

презентативна срезу такой популяции, то можно ожидать, что эти

183 АНАЛИЗ ЗАДАНИЙ

Предположим, однако, что полученная кривая распределения не нор-

мальна, а явно скошена, так как это изображено на рис. 23. Первое из

этих распределений (часть А), у которого значительная часть результатов

сосредоточена на левом его конце, указывает на то, что для данной

группы тест содержит мало относительно легких заданий, достаточное

число которых необходимо для лучшего различения испытуемых, чьи ре-

зультаты находятся на нижнем конце диапазона значений. В силу этого

испытуемые, результаты которых обычно распределены в довольно ши-

роком диапазоне, получат в этом тесте результаты близкие или равные

О, отсюда и нахождение пика кривой вблизи нижнего края шкалы. Схема

такого искусственного сосредоточения результатов, когда нормальное

распределение показателей по какому-то тесту дает распределение, ско-

шенное влево, приведена на рис. 24, Противоположный этому скос рас-

пределения дается на рис. 23 (в части В). Здесь результаты сосредото-

чены преимущественно на верхнем конце шкалы, что свидетельствует

о чересчур низком потолке трудности в данном тесте. Такого рода ско-

шенное распределение наблюдается, например, когда тест, предназна-

ченный для общей популяции, дается выборке студентов или аспирантов,

многие из которых показывают почти 100Ї(,-ный результат. С помощью

такого теста невозможно измерять индивидуальные различия между ис-

пытуемыми, чьи показатели принадлежат к верхнему краю распределе-

ния. Если бы в тест были включены более трудные задания, многие из

испытуемых, несомненно, набрали бы еще больше очков, чем максимум

для данной серии заданий.

Когда распределение результатов теста, полученное на выборке

стандартизации, заметно отличается от нормального, обычно произво-

дится корректировка трудности заданий, пока не достигается приблизи-

тельно нормальная кривая. В зависимости от типа отклонений от нор-

мального распределения добавляются более легкие или более трудные

Рис. 23. Скошенные .кривые

рамредепцая

А. Сосредоточение результатов на нижнем конце шкалы

Рис. 24. Скос распределения

результатов вследствие не-