ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.08.2024
Просмотров: 773
Скачиваний: 0
СОДЕРЖАНИЕ
Часть 1 -содержательной стороне современной тестологии (особый инте-
Глава 1. Функции и происхождение
Глава 2. Природа психологических тестов
Глава 3. Социальные и этические аспекты
Глава 4. Нормы и интерпретация
Глава 10. Тесты для специфических
Глава II. Групповое тестирование
Часть 1. Классификация. Отметьте картинку, не принадлежащую трем остальным,
Часть 1. Вербальные способности. Каждое задание начинается с пары связанных
Часть II. Математические способности. Каждое задание содержит две величи-
Существует ряд таблиц для определения коэффициента (р. При рав-
ном численном составе критериальных групп В и Н (р можно найти по
таблицам Иоргенсена (C.E.Jurgensen, 1947), составленным на основе
процентов выполнивших задание в каждой из этих групп. Поскольку при
анализе заданий обычно легко сделать группы В и Н численно равными,
эти таблицы находят широкое применение. Если же критериальные
группы неодинаковы по размеру, (р находят по серии таблиц Эдгертона
(H.A.Edgerton, 1960), хотя их применение требует больших затрат
времени.
Уровень значимости коэффициента (р нетрудно вычислить, исходя из
соотношения между ним, и соотношениями нормальной кривой. С по-
мощью последнего показателя можно найти минимальное (р, значимое
на уровне 0,05 или 0,01, по следующим формулам:
1,96
]//v
2,58
IV
В этих формулах N есть суммарное число испытуемых в обеих группах.
Так, если группы В и Н содержат по 50 человек, то N = 100, и минимум
(р, значимый на уровне 0,05, будет равен 1,96:1/100 = 0,196. Любое зна-
4fHWfffn ГЯ11ИМТТТДГТТТ1ТаП10 ff,r"-~---
193 АНАЛИЗ ЗАДАНИЙ
Бисериальная корреляция. В заключение рассмотрим весьма
распространенную меру валидности задания-коэффициент бисериальной
корреляции (rbis), отличающийся от (р в двух существенных моментах. Во-
первых, rjs предполагает существование непрерывного и нормального
распределения свойства, лежащего в основе ответов на дихотомические
задания. Во-вторых, г как мера отношений между заданием и крите-
рием не зависит от трудности задания. Для вычисления г нужно знать
среднее значение критериального показателя выполнивших и не выпол-
нивших задание, процент справившихся и не справившихся с заданием
по всей выборке и стандартное отклонение показателей критерия.
Подсчет всех необходимых параметров и применение для каждого за-
дания формулы бисериальной корреляции может оказаться весьма дли-
тельным процессом. Но существуют таблицы, с помощью которых мож-
но получить ?ь", зная процент справившихся с заданием в группах,
соответствующих верхним и нижним 1ЧЇ/о распределения значений крите-
рия (С. Т. Fan, 1952; 1954). С помощью этих таблиц по процентам спра-
вившихся с заданием в группах В и Н можно найти три величины: р, т. е.
процент справившихся с заданием по всей выборке; описанный ранее по-
казатель Д, являющийся мерой трудности задания в интервальной шка-
ле, и Гы" между заданием и критерием. Но таблицами можно пользовать-
ся при условии, что В и Н содержат каждая в точности 27Їо всей
выборки.
Способа, который позволял бы точно рассчитать уровни значимости
для так оцениваемой бисериальной корреляции, не существует. Однако
было установлено, что их стандартные ошибки несколько больше, чем для
коэффициентов бисериальной корреляции, подсчитанных обычным пу-
тем. Это значит, что коэффициент г, полученный по таблицам Фана,
сильнее колеблется от выборки к выборке, чем г, вычисленный по фор-
муле. Принимая это во внимание, можно использовать стандартную
ошибку г, чтобы приблизительно оценить, насколько большой должна
быть статистически значимая корреляция. И в этом случае вычисли-
тельная техника позволяет легко определить значение бисериальной кор-
реляции, основываясь на более адекватной процедуре, т. е. по ответам ис-
пытуемых из всей выборки.
ВНУТРЕННЯЯ СОГЛАСОВАННОСТЬ
Анализ заданий нередко проводится относительно суммарного результа-
та теста. Этот метод находит свое применение в тестах достижений
и особенно при составлении учителем контрольных работ, когда трудно
получить внешние критериальные данные. Как отмечалось в главе 6,
этот подход позволяет получить меру внутренней согласованности, а не
внешней валидности. Он годится для уточнения валидации по содержа-
нию и некоторых аспектов конструктной валидации.
Однако если тест должен быть валидным относительно критерия,
использование суммарного результата для анализа заданий нуждается
в тщательном изучении. При определенных условиях эти два подхода
могут привести к противоположным выводам: задания, выбираемые по
Формулу для ет можно найти в любом учебнике статистики (J. P. Guilford,
194 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
признаку внешней валидности, могут оказаться неудовлетворительными
с точки зрения внутренней согласованности. Предположим, что предва-
рительная форма теста способности к обучению состоит из 100 арифме-
тических и 50 словарных заданий. Для отбора заданий из первоначаль-
ной их совокупности методом внутренней согласованности можно
воспользоваться бисериальной корреляцией между выполнением каждо-
го задания и суммарными результатами по всем 150 заданиям. Очевид-
но, что такая бисериальная корреляция будет выше для арифметических,
а не для лексических заданий, потому что суммарный результат основан
на вдвое большем числе арифметических заданий. Если в окончательной
форме теста предполагается сохранить лучшие 75 заданий, то вполне ве-
роятно, что в большинстве своем они будут состоять из арифметических
заданий. Но с точки зрения достижений в учении словарные задания мо-
гут оказаться по сравнению с арифметическими более валидными
предикторами. В этом случае анализ заданий будет служить не повыше-
нию, а понижению валидности теста.
Изъятие заданий, имеющих низкую корреляцию с суммарным ре-
зультатом, является средством повышения однородности, или <очище-
ния>, теста. Благодаря применению этой процедуры сохраняются зада-
ния с наибольшими средними взаимокорреляциями. Данный метод
отбора заданий повышает валидность теста, только когда первоначаль-
ная совокупность заданий измеряет одно и то же свойство и когда это
свойство присутствует и в критерии. Однако некоторые типы тестов из-
меряют комбинацию свойств, отвечающих сложному критерию. В таком
случае очищение теста от инородных элементов может сузить охват та-
кого критерия и тем самым понизить валидность.
Отбор заданий с целью довести до максимума валидность теста
аналогичен отбору тестов, с тем чтобы получить батарею тестов с на-
иболее высокой валидностью. Напомним (гл. 7), что вклад теста в ва-
лидность батареи тем больше, чем выше его корреляция с критерием
и чем ниже корреляция с другими тестами батареи. Если этот принцип
применить к отбору заданий, то наилучшими окажутся задания, имею-
щие наибольшие значения валидности и наименьшие коэффициенты вну-
тренней согласованности. На этой основе можно определить чистую эф-
фективность задания, т.е. чистый прирост валидности теста при
добавлении к нему конкретного задания. Так, если задание тесно корре-
лирует с внешним критерием, но относительно слабо коррелирует с сум-
марным показателем теста, то оно предпочтительнее такого задания, ко-
торое имеет высокую корреляцию и с критерием, и с тестом в целом,
ибо первое задание, по-видимому, измеряет некоторый аспект критерия,
не учитываемый должным образом остальными заданиями.
Может показаться, что к отбору заданий применимы те же методы,
что и при комплектовании батареи тестов. В частности, можно было бы
ориентироваться на корреляцию задания с критерием и с другими зада-
ниями. Лучшим заданиям, отобранным таким путем, можно было бы за-
тем приписать веса и представить в уравнении регрессии. Такая процеду-
ра, однако, неосуществима и теоретически несостоятельна. Дело не
Такая корреляция части и целого будет несколько завышенной в силу присутствия
общей специфической дисперсии и дисперсии ошибки в задании и в тесте, частью которо-
го оно является. Существуют формулы, вносящие необходимую поправку в коэффициент
195 АНАЛИЗ ЗАДАНИЙ
только в усилиях, которые потребовались бы для проведения необхо-
димых вычислений. Более существенно то обстоятельство, что корреля-
ция между заданиями подвержена зависящим от выборки колебаниям
и найденные параметры регрессии слишком неустойчивы, чтобы на них
можно было основывать отбор заданий, не прибегая к чрезвычайно
большим выборкам. По этой причине для отбора заданий по их чистому
вкладу в валидность теста было разработано несколько методов апрок-
симации. Некоторые из этих методов основаны на эмпирическом процес-
се построения теста, при котором набор заданий растет постепенно,
а при добавлении задания валидность всего набора каждый раз под-
считывается заново. Согласно другим методам, вначале берется полный
набор заданий, из которого последовательно изымаются наименее
удачные, пока не достигается требуемая валидность теста. Поскольку да-
же такие методы требуют большого объема вычислений, к ним целесо-
образно обращаться только при наличии вычислительной техники
(J.A.Fossum, 1973; S.Henrysson, 1971).
Следует отметить, что все способы отбора заданий по их чистой эф-
фективности представляют подход, обратный тому, который ориентиро-
ван на внутреннюю согласованность. В первом случае чем выше корре-
ляция между заданием и тестом, тем больше шансов на то, что задание
будет изъято; во втором же случае чем выше такая корреляция, тем
больше вероятность того, что задание будет включено в тест. Цели обо-
их подходов, разумеется, различны. Один направлен на наиболее широ-
кий охват критерия и меньшее дублирование заданий; второй же предус-
матривает повышение однородности теста. И то и другое желательно
иметь в виду при составлении теста. Выбор конкретной процедуры
в большой степени зависит от характера теста и его назначения. Так,
в биографическом опроснике задания (вопросы) можно оценивать и от-
бирать только в соответствии с внешним критерием, причем охватывае-
мое опросником содержание в высшей степени неоднородно. Примером
совсем иного рода может служить тест на правописание, весьма одно-
родный по содержанию; здесь уже существенным ориентиром для отбо-
ра заданий является внутренняя согласованность.
Применительно ко многим задачам тестирования удовлетворитель-
ное решение означает распределение сравнительно однородных заданий
по отдельным тестам или субтестам, каждый из которых относится к ка-
кому-то одному аспекту критерия. Таким образом, учет разных аспектов
достигается разнообразием тестов, каждый из которых позволяет полу-
чить более или менее однозначный результат, а не разнородностью зада-
ний в рамках одного теста. При таком подходе задания с низкими ин-
дексами внутренней согласованности не отбрасываются, а выделяются.
Тем самым в пределах каждого субтеста или группы заданий может
быть достигнута довольно высокая внутренняя согласованность. В то же
время такая согласованность не будет трактоваться как заменитель ва-
лидности по критерию, и потребуется лишь уделить некоторое внимание
тому, чтобы разные аспекты критерия были адекватно представлены
в тесте и чтобы не было чрезмерной концентрации заданий по неко-
торым из аспектов.
196 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
АНАЛИЗ ЗАДАНИЙ ТЕСТОВ НА СКОРОСТЬ
Независимо от того, входит ли скорость в число измеряемых функций,
индексы заданий, вычисленные для скоростных тестов, могут создавать
ложное впечатление. Если не считать заданий, при выполнении которых
никто или почти никто из обследуемых не испытывает недостатка време-
ни, эти индексы отражают не столько действительную трудность или ва-
лидность заданий, сколько их положение в тесте. Задания, выполняемые
в тесте позднее, будут выполнены сравнительно малым числом испы-
туемых, поскольку лишь немногие успевают до них добраться. Каким бы
легким ни было задание, если оно расположено в конце теста на ско-
рость, оно будет казаться трудным. Если, скажем, вопрос об имени ис-
пытуемого поместить в конце скоростного теста, то процент лиц, отве-
тивших на него, будет весьма низким.
Точно так же переоценивается валидность заданий, к выполнению
которых многие испытуемые не успевают приступить. Поскольку более
опытные индивиды обычно работают быстрее, они, по-видимому, скорее
доберутся до заданий, находящихся в конце теста на скорость