Файл: Методические рекомендации по изучению курса Программа курса Раздел I. Человек и его познание Тема Необходимость изучения психологии и педагогики в поисках смысла.doc
Добавлен: 06.12.2023
Просмотров: 1373
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
измеренную таким способом, - ретестовой надежностью. Схема оценки ретестовой надежности имеет следующий вид:
(См. дополнительный иллюстративный материал.)
В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.
Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование не отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или "подгонка" под первоначальные результаты, или, как следствие негативизма, демонстрация "новых" результатов. (См. дополнительный иллюстративный материал.)
В результате оказывается, что, проводя повторное измерение для оценки одних источников ошибок, мы вызываем к жизни другие. Это специфическая психометрическая проблема, так как человек является не только объектом, но и субъектом измерения, активно влияет на результаты тестирования. В качестве одного из эффективных средств устранения ошибок, связанных с повторным применением одного и того же теста, рекомендуется проводить повторное тестирование через достаточно большие интервалы времени, чтобы первоначальные ответы были забыты, а по возможности и сам факт первого измерения изгладился из памяти. Однако при больших интервалах времени между двумя обследованиями могут происходить изменения в самих измеряемых характеристиках личности. В этом случае низкие значения коэффициента надежности будут следствием изменчивости измеряемой характеристики, а не низкой надежности теста. Поэтому, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем, что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.
Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Схема использования параллельных тестов для измерения надежности имеет следующий вид:
(См. дополнительный иллюстративный материал.)
Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.
Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.
Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура "расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.
где R1,2 - коэффициент корреляции двух половин теста.
Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.
Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.
Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:
специфические;
обобщенные (генерализированные).
Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или "выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины. (См. дополнительный иллюстративный материал.)
Генерализованный (обобщенный) истинный результат - это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-нибудь теста. В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.
Понятие валидности теста
Для характеристики способности теста измерять действительный уровень психического свойства или качества используют понятие валидности.
Валидность (validity) теста показывает, в какой мере он измеряет то качество (свойство, способность, характеристику и т.п.), для оценки которого он предназначен, т.е. не обладающие валидностью тесты не пригодны для практического использования.
В современной психометрии выделяют три основных вида валидности:
содержательная (логическая);
эмпирическая;
концептуальная.
Содержательная (content validation). Её часто называют "логической валидностью" или "валидностью по определению". Содержательная валидность означает, что тест является валидным по мнению специалистов.
Содержательную валидность следует отличать от очевидной, лицевой, внешней валидности (face validity). Очевидная валидность - это валидность с точки зрения испытуемого. Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. (См. дополнительный иллюстративный материал.)
Очевидная внешняя валидность может находиться в разных отношениях с содержательной валидностью. В одних случаях содержательная и внешняя валидность совпадают, в других внешняя валидность используется для маскировки содержательной валидности. С этой целью содержанию заданий и инструкций придается специальная форма, маскирующая истинную цель исследования. Тем самым предупреждается появление установочного поведения при тестировании. Это один из основных тактических приемов, используемых при создании объективных тестов. В отличие от очевидной валидности содержательная валидность всегда связана с оценкой отношения содержания тестового материала к истинной, а не мнимой цели измерения. Для определения содержательной валидности используются экспертные методы.
Эмпирическая валидность (empirical validity). Идея эмпирической валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической способности или формы поведения человека. Для измерения этого свойства вычисляется коэффициент корреляции тестового результата с внешним критерием - R(X,K). В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест. Вопрос о выборе критерия является в этом виде валидности основным. От выбора критерия зависят качественная и количественная оценки валидности. Условно можно выделить три группы критериев:
экспертные;
экспериментальные;
"жизненные".
Экспертный критерий предполагает использование экспертных оценок для независимого измерения свойств личности. Хотя экспертному методу измерения особенностей личности в последнее время уделяется значительное внимание, тем не менее применение экспертных оценок для валидизации тестов не имеет достаточно разработанных унифицированных процедур, позволяющих получить достоверную и устойчивую информацию.
На практике значительно больше распространены экспериментальные критерии. В этих случаях в качестве критерия валидности используются результаты одновременного и независимого тестирования испытуемых другим тестом, предположительно измеряющим то же свойство личности, что и валидизируемый тест. Коэффициент корреляции между результатами двух измерений называется эмпирической взаимной валидностью. Его величина зависит как от степени совпадения содержания измерения, так и от надежности тестов. Поэтому максимальные коэффициенты эмпирической взаимной валидности имеют параллельные тесты.
Эмпирическая валидность теста - это всегда валидность по отношению к конкретному критерию. Поэтому процесс конструирования теста часто сопровождается поиском подходящего критерия. Если к моменту проверки валидности такого экспериментального критерия не оказывается, в его качестве используются характеристики реального поведения, которые на основе существующих психологических теорий предполагаются связанными с измеряемым свойством. Так в качестве этого жизненного критерия для теста интеллекта используются показатели успешности обучения, экстравертированности - успешности административной деятельности, тревожности - частота заболеваний неврозом и т.п.
Концептуальная валидность (construct validity). Она устанавливается путем
(См. дополнительный иллюстративный материал.)
В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.
Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование не отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или "подгонка" под первоначальные результаты, или, как следствие негативизма, демонстрация "новых" результатов. (См. дополнительный иллюстративный материал.)
В результате оказывается, что, проводя повторное измерение для оценки одних источников ошибок, мы вызываем к жизни другие. Это специфическая психометрическая проблема, так как человек является не только объектом, но и субъектом измерения, активно влияет на результаты тестирования. В качестве одного из эффективных средств устранения ошибок, связанных с повторным применением одного и того же теста, рекомендуется проводить повторное тестирование через достаточно большие интервалы времени, чтобы первоначальные ответы были забыты, а по возможности и сам факт первого измерения изгладился из памяти. Однако при больших интервалах времени между двумя обследованиями могут происходить изменения в самих измеряемых характеристиках личности. В этом случае низкие значения коэффициента надежности будут следствием изменчивости измеряемой характеристики, а не низкой надежности теста. Поэтому, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем, что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.
Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Схема использования параллельных тестов для измерения надежности имеет следующий вид:
(См. дополнительный иллюстративный материал.)
Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.
Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.
Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура "расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.
где R1,2 - коэффициент корреляции двух половин теста.
Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.
Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.
Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:
специфические;
обобщенные (генерализированные).
Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или "выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины. (См. дополнительный иллюстративный материал.)
Генерализованный (обобщенный) истинный результат - это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-нибудь теста. В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.
Понятие валидности теста
Для характеристики способности теста измерять действительный уровень психического свойства или качества используют понятие валидности.
Валидность (validity) теста показывает, в какой мере он измеряет то качество (свойство, способность, характеристику и т.п.), для оценки которого он предназначен, т.е. не обладающие валидностью тесты не пригодны для практического использования.
В современной психометрии выделяют три основных вида валидности:
содержательная (логическая);
эмпирическая;
концептуальная.
Содержательная (content validation). Её часто называют "логической валидностью" или "валидностью по определению". Содержательная валидность означает, что тест является валидным по мнению специалистов.
Содержательную валидность следует отличать от очевидной, лицевой, внешней валидности (face validity). Очевидная валидность - это валидность с точки зрения испытуемого. Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. (См. дополнительный иллюстративный материал.)
Очевидная внешняя валидность может находиться в разных отношениях с содержательной валидностью. В одних случаях содержательная и внешняя валидность совпадают, в других внешняя валидность используется для маскировки содержательной валидности. С этой целью содержанию заданий и инструкций придается специальная форма, маскирующая истинную цель исследования. Тем самым предупреждается появление установочного поведения при тестировании. Это один из основных тактических приемов, используемых при создании объективных тестов. В отличие от очевидной валидности содержательная валидность всегда связана с оценкой отношения содержания тестового материала к истинной, а не мнимой цели измерения. Для определения содержательной валидности используются экспертные методы.
Эмпирическая валидность (empirical validity). Идея эмпирической валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической способности или формы поведения человека. Для измерения этого свойства вычисляется коэффициент корреляции тестового результата с внешним критерием - R(X,K). В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест. Вопрос о выборе критерия является в этом виде валидности основным. От выбора критерия зависят качественная и количественная оценки валидности. Условно можно выделить три группы критериев:
экспертные;
экспериментальные;
"жизненные".
Экспертный критерий предполагает использование экспертных оценок для независимого измерения свойств личности. Хотя экспертному методу измерения особенностей личности в последнее время уделяется значительное внимание, тем не менее применение экспертных оценок для валидизации тестов не имеет достаточно разработанных унифицированных процедур, позволяющих получить достоверную и устойчивую информацию.
На практике значительно больше распространены экспериментальные критерии. В этих случаях в качестве критерия валидности используются результаты одновременного и независимого тестирования испытуемых другим тестом, предположительно измеряющим то же свойство личности, что и валидизируемый тест. Коэффициент корреляции между результатами двух измерений называется эмпирической взаимной валидностью. Его величина зависит как от степени совпадения содержания измерения, так и от надежности тестов. Поэтому максимальные коэффициенты эмпирической взаимной валидности имеют параллельные тесты.
Эмпирическая валидность теста - это всегда валидность по отношению к конкретному критерию. Поэтому процесс конструирования теста часто сопровождается поиском подходящего критерия. Если к моменту проверки валидности такого экспериментального критерия не оказывается, в его качестве используются характеристики реального поведения, которые на основе существующих психологических теорий предполагаются связанными с измеряемым свойством. Так в качестве этого жизненного критерия для теста интеллекта используются показатели успешности обучения, экстравертированности - успешности административной деятельности, тревожности - частота заболеваний неврозом и т.п.
Концептуальная валидность (construct validity). Она устанавливается путем