ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.10.2020
Просмотров: 8429
Скачиваний: 53
111
лагаемого к использованию, на какой популяции и в какой диагнос-
тической ситуации проводилась проверка. Если проверки не было или
признаки новых популяции и ситуации явно специфичны, провести
заново проверку надежности с учетом указанных ниже возможностей.
2. Произвести повторное тестирование на всей выборке стан-
дартизации и подсчитать все коэффициенты, как для целого теста, так
и для его отдельных пунктов. Анализ полученных коэффициентов по-
зволит понять, насколько пренебрежима ошибка измерения, дает ли
данный тест интервальную шкалу (высокий r) или только диагности-
чен для крайних групп (высокий φ), насколько устойчиво измеряемое
свойство во времени (возможен ли статистический прогноз - проекция
тестового балла на будущее), в каких своих пунктах тест менее наде-
жен (анализ этих пунктов позволяет психологически осмыслить со-
держательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны,
произвести повторное тестирование только на части выборки (не ме-
нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-
клеточную корреляцию для оценки внутренней согласованности и ста-
бильности теста в целом.
3.3. ВАЛИДНОСТЬ ТЕСТОВ
Проблемы валидизации психологических тестов являются цент-
ральными для дифференциальной психометрики, но, к сожалению, до
сих пор решенными не до конца. Решение этой проблемы зависит не
от статистического аппарата, а от уровня развития теоретического ап-
парата дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность)
всякой процедуры измерения состоит в однозначности (устойчивости)
получаемых результатов относительно измеряемых свойств объектов,
т, е. относительно предмета измерения. Отличие понятия валидности
от надежности измерения удобно раскрывать с помощью различения
«объекта» и «предмета» измерения. Надежность - это устойчивость
процедуры относительно объектов. Надежность не обязательно пред-
полагает валидность. В психологии довольно часто возникает такая
ситуация, когда исследователь вначале предлагает определенную
112
процедуру измерения, показывает ее надежность -способность устой-
чиво различать объекты, но вопрос о валидности остается открытым.
Если в сенсорной психофизике вопрос о валидности измерений
оказывается в значительной степени затушеванным тем обстоятель-
ством, что простейшие физические стимулы достаточно однозначно
детерминируют измеряемые свойства ощущений, то в дифференци-
альной психометрике значимость проблемы валидности резко возра-
стает. Здесь ситуация подобна той, когда в психофизическом опыте
испытуемому не указывают, по какому именно параметру следует
сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что
стимульные объекты надо сравнивать по весу, а испытуемый Б - по
размеру. Если процедура измерения будет повторена по отношению к
тем же объектам, то она даст вполне устойчивые данные относительно
объектов, но не даст валидной информации ни о шкале ощущений
«веса», ни о шкале ощущений «размера».
При измерении способностей предъявляемый тест отнюдь не
обязательно актуализирует именно тот психический процесс, который
предполагается измерить. Например, столкнувшись с уже встречав-
шейся однажды задачей (например, с анаграммой «дзиканпр»), испы-
туемый может начать запоминать просто то решение, к которому он
уже однажды пришел (слово «праздник»), чем заново решать эту за-
дачу. Здесь будет измеряться скорее уровень словесной памяти, чем
уровень вербального интеллекта. Точно так же реальная валидность
некоторых тестов раскрывается только в результате значительного
опыта работы с ними. Например, доказано, что ряд тестов, внешне вы
глядящих интеллектуальными, на деле измеряют скорее личностно-
стилевые особенности индивида, чем операциональные возможности
интеллекта, например, методика «креативного поля» Д. Б. Бо-
гоявленской.
Устойчивость теста относительно объектов (испытуемых) явля-
ется необходимым, но не достаточным условием его устойчивости от-
носительно измеряемых атрибутов (свойств) объектов. Надежность яв-
ляется необходимым, но не достаточным условием валидности. Отсюда
вытекает основное соотношение психометрики:
валидность ≤ надежность.
113
Это означает, что валидность теста не может превышать его на-
дежность.
Данное соотношение, однако, неверно трактовать как указание
на прямую пропорциональную связь валидности и надежности. По-
вышение надежности отнюдь не обязательно приводит к повышению
валидности
1
. В терминах А. Анастази валидность определяется ре-
презентативностью теста относительно измеряемой области поведе-
ния. Если эта область поведения складывается из разнообразных фе-
номенов, то содержательная валидность теста автоматически требует
представленности в нем моделей всех этих разнообразных феноменов.
Возьмем глобальное понятие «речевая способность» (этому психолин-
гвистическому термину в традиционной тестологии соответствует тер-
мин «вербальный интеллект»). Сюда относятся такие относительно не-
зависимые друг от друга навыки, как навыки письма и чтения. Если
заботиться о содержательной валидности соответствующего теста, то
нужно ввести в него группы заданий на проверку этих довольно раз-
ных по своему операциональному составу компонентов вербального
интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы
обязательно сокращаем внутреннюю согласованность, одномоментную
надежность теста, но зато добиваемся существенного повышения ва-
лидности. Таким образом, для расширения области применения теста
психодиагност должен избегать излишнего повышения внутренней со-
гласованности. Одновременно с этим снижением внутренних корреля-
ций между различными пунктами теста (об этом уже говорилось в раз-
деле 3.1) обязательно исчезает отрицательный эксцесс на кривой рас-
пределения тестовых баллов, и она все более приближается по форме
к нормальной кривой.
Эмпирическая валидность. Если в случае с содержательной ва-
лидностью оценка теста производится за счет экспертов (устанавли-
вающих соответствие заданий теста содержанию предмета измерения),
то эмпирическая валидность измеряется всегда с помощью ста-
тистического коррелирования: подсчитывается корреляция двух рядов
1
Предельной внутренней согласованностью будет, например, обладать тест-опросник, состоя-
щий из повторения одного и того же вопроса. Но валидность в данном случае будет минималь-
ной.
114
значений - баллов по тесту и показателей по внешнему параметру, из-
бранному в качестве критерия валидности.
Прагматические традиции западной тестологии привязывали эм-
пирическую валидность теста к внешним для психологии социально-
прагматическим критериям. Эти критерии являются показателями, об-
ладающими непосредственной ценностью для определенных областей
практики. Практика всегда имеет целью либо повысить, либо понизить
эти показатели. Например, в области педагогической психологии это
«успеваемость» (которую надо повысить), в психологии труда это
«производительность труда» и «текучесть кадров», в медицине - «со-
стояние
здоровья
пациента», в
психологии
управления -
«совместимость», «срабатываемость» коллектива, в юридической пси-
хологии - «преступность» (которую надо понизить) и т. п.
Ориентируясь непосредственно на эти категории, психолог, пы-
тающийся скоррелировать результаты теста с этими показателями,
фактически решает сразу две задачи: задачу измерения валидности и
задачу измерения практической эффективности своей психодиагнос-
тической программы. Если получен значимый коэффициент корреля-
ции, то можно считать, что решены с позитивным результатом сразу
обе эти задачи. Но если корреляции не обнаружено, то остается нео-
пределенность: либо невалидна сама процедура (тестовый балл не от-
ражает, например, стрессоустойчивость оператора), либо неверна ги-
потеза о наличии причинно-следственной связи между психическим
свойством и социально значимым показателем (стрессоустойчивость
не влияет на процент аварийных ситуаций).
Таким образом, социально-прагматические критерии являются
комплексными: они позволяют измерить валидность-эффективность,
но не каждое из этих двух свойств теста отдельно. На практике пси-
холога часто ожидает и еще более сложная ситуация, когда заказчик
требует от психолога на основании полученного диагноза сразу же оп-
ределенных мер по вмешательству в ситуацию (отбор, консульти-
рование, обучение и т. п.). В этом случае повышение показателей
(достоверное по сравнению с контрольной группой) доказывает од-
новременно и валидность-эффективность диагностики, и эффектив-
ность самого вмешательства. А отрицательный результат дает еще
большую неопределенность, так как оказывается невозможным от-
115
делить неэффективность вмешательства от низкой валидности ди-
агностики.
Ориентация на социально-прагматические критерии, приводя-
щие к склейке понятий «валидности измерения» и «причинного про-
гноза по результатам измерения», бесспорно, сдерживала и продол-
жает сдерживать развитие концептуального аппарата дифференци-
альной психологии. При этом суть самого предмета измерения: изме-
ряемого психического свойства - оказывается вне фокуса внимания не
только заказчика, но и самого психолога, превращающегося в этом
случае в тестолога, которого не интересует, что именно он измеряет,
главное лишь, чтобы от этого «нечто» перекидывался мостик к полез-
ному эффекту, обеспечивающему психологу социальное признание.
Процедура эмпирической валидизации. Организация выборки
при эмпирической валидизации зависит от временного статуса крите-
рия. Если этот критерий - событие в прошлом (ретроспективная вали-
дизация), то к участию в психодиагностическом обследовании доста-
точно привлечь только тех испытуемых, которые оказались на экстре-
мальных полюсах по этому критерию
1
. В результате применяется ме-
тод экстремальных (контрастных) групп. Коррелирование с суммарным
баллом по тесту оценивается с помощью бисериального коэффициента
по формуле (3.2.17). При этом в статусе дихотомической переменной
(на месте отдельного пункта) оказывается сам критерий валидности:
å
x— сумма баллов по тесту, полученных «высокой» группой по кри-
терию;
pq
- стандартная ошибка критерия, связанная с численностью
«высокой» (р) и «низкой» (q) групп.
Если критерий - будущее событие (проспективная валидизация),
то выборка должна быть составлена с запасом - с учетом вероятного
объема экстремальных групп в будущем. Например, нужно выяснить,
позволяет ли диагностика темперамента прогнозировать повышенный
риск психосоматических заболеваний (гипертония, язва, астма и т. п.).
Пусть на основании эпидемиологических исследований известно, что в
течение трех лет из. 1000 здоровых людей этими болезнями заболе-
1
В этом случае имеет место схема исследования, известная под названием «квазиэксперимент»:
контроль осуществляется не в виде воздействия на независимую переменную, а в виде привле-
чения особой выборки испытуемых. Подробнее о квазиэкспериментах см. кн.- Д. Кэмпбелл,
1980.