ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 04.12.2023
Просмотров: 477
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Вопрос 4. Регрессионный анализ. Множественный регрессионный анализ. Назначение и классификация многомерных методов.
Вопрос 1. Статистические гипотезы. Понятие уровня
статистической значимости
Нулевая и альтернативная гипотезы
Одна из основных задач, стоящих перед психологом, проводящим эмпирическое исследование, – это выяснение того, какие выводы о свойствах генеральной совокупности можно сделать по выборочному наблюдению. Оценка параметров генеральной совокупности, сделанная на основании выборочных данных, неизбежно сопровождается погрешностью и поэтому рассматривается как предположительное, а не как окончательное утверждение.
Подобные предположения о свойствах и параметрах генеральной совокупности называются статистическими гипотезами.
Статистическая гипотеза – научная гипотеза, допускающая статистическую проверку.
Пример: исследование тревожности у мальчиков и девочек пятого класса.
Можно ли утверждать, что девочки являются более тревожными, чем мальчики? Или наоборот?
Статистическая гипотеза состоит из двух частей.
Нулевая гипотеза обозначается как H0, это гипотеза о сходстве, об отсутствии значимых различий между исследуемыми признаками.
Исходит из предположения о том, что Х1-Х2=0, где Х1 и Х2 – сопоставляемые значения признаков.
Альтернативная гипотеза обозначается как H1, это гипотеза о наличии различий. Исходит из предположения о том, что Х1-Х2≠0, где Х1 и Х2 – сопоставляемые значения признаков. Это то, что хочет доказать исследователь, поэтому такая гипотеза ещё носит название экспериментальной.
Проверка статистической гипотезы
Важнейший принцип, лежащий в основе всех проверок статистических гипотез: при проверке любой Н исследователь никогда не принимает решение с полной уверенностью. Он всегда допускает риск принятия неправильного решения, неопределенность в принятии решения возникает из-за колебаний в выборке, обычно называемой ошибкой выборки.
Понятие уровня статистической значимости
Уровень значимость (р) – это вероятность ошибочного отклонения нулевой гипотезы при принятии решения о существовании различий, вероятность того, что результаты не представляют популяцию. Зоны и уровни значимости представлены далее на рисунке.
В психологии принято считать низшим уровнем значимости 5%- й уровень, достаточным 1%-й уровень и высшим 0,1%-й уровень статистической значимости.
Далее рисунок иллюстрирует принятие Н
о части гипотезы:
Теперь рисунок иллюстрирует принятие Н
1
части гипотезы:
Еще бывают случаи, когда полученное значение относится к зоне:
Как мы узнаем статистически значимый полученный результат или нет?
Таблицы критических значений того, что мы рассчитывали
(например, ранговый коэффициент корреляции Спирмена) можно найти в справочнике по статистике или интернете, также в конце учебников по математической статистике представлены данные таблицы. Отыщите строку, в которой содержится нужное вам n – количество наблюдений в вашей выборке, и определите соответствующие значения при 5% и 1% ошибке. Сравните с полученным значением, и вы увидите на графике, куда будет относиться число: к зоне значимости, зоне неопределённости или зоне незначимости.
Возможные ошибки
Выделяют ошибки первого и второго рода, которые возникают в ходе исследования.
Ошибкой первого рода называют ошибку, которая возникает, когда исследователь считает, что обнаружил реальные результаты, а их на самом деле нет.
Ошибкой второго рода называют ошибку, которая возникает, когда исследователь считает, что не обнаружил результата, а на самом деле он есть.
На основе опыта практических исследований рекомендуется: чтобы избежать ошибок 1 и 2 рода при ответственных выводах, следует принимать решение о наличии различий (связи), ориентируясь на уровень р ≤ 0,01 или на вычисленный статистический критерий для меньшего числа n признака
Вопрос 2. Понятие и виды корреляционной связи
Понятие корреляционной связи.
Довольно часто встречающейся задачей психологического исследования является выявление взаимосвязей между двумя и более наборами данных. Одна из простейших форм выявления такой связи называется корреляция.
s
r
Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции, он дает возможность точной количественной оценки степени согласованности изменений (варьирования) двух и более признаков.
Коэффициент корреляции – это мера прямой или обратной пропорциональности между двумя переменными.
«Корреляция» – в прямом переводе «соотношение». Термин введён в науку Ф. Гальтоном (1886 г.), точную формулу для расчёта коэффициента корреляции разработал К. Пирсон.
Если изменение одной переменной сопровождается изменениями другой, то можно говорить о соотношении этих переменных.
Два термина «корреляционная связь» и «корреляционная зависимость» часто используются как синонимы, между тем слово
«зависимость» неприемлемо, т. к. корреляционная связь двух признаков может обуславливаться их зависимостью от какого-то постороннего признака, а вовсе не зависимостью друг от друга.
Корреляционная связь подразумевает любые согласованные изменения, которые могут объясняться сотнями причин.
Пример: успешность обучения и уровень абстрактного мышления коррелируют между собой, но нельзя утверждать, что на обучаемость влияет лишь фактор абстрактного мышления, так как неучтенными остаются память, мотивация и др.
Корреляция прямо не указывает на причинно-следственную связь, но она может служить ключом к разгадке причин. Если существует возможность учесть влияние переменных, то на основе корреляционной связи можно формулировать гипотезы, проверяемые экспериментально.
Реальные причины корреляции и возможные гипотезы. Давайте рассмотрим реальный пример.
На базе МГУ в начале 2000-х среди студентов было проведено исследование, в результате которого была обнаружена корреляция между величиной носа и предпринимательскими способностями
(умением зарабатывать деньги). Можем выдвинуть гипотезу: что национальность связана со способностью к зарабатыванию денег. …
Но почему так происходит? Откуда взялась связь между этими явлениями?
Определение причины корреляции – это очень сложная задача.
Переплетаются тысячи различных факторов, часть из которых скрыта.
Или: мы выяснили, что существует отрицательная взаимосвязь между доходом персонала и его эффективностью в работе. Наша гипотеза: «Лентяи и бездельники получают больше, чем ответственные сотрудники». Тогда мы пересмотрим систему мотивации и избавимся от бесполезных людей.
Корреляционная зависимость – это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Корреляционные связи – это вероятностные изменения, которые не могут рассматриваться как причинно-следственные зависимости. Наличие корреляции между двумя результатами, в сущности, означает, что при изменении одного результата другой также изменяется.
Основные показатели корреляционной связи: сила,
направление и надежность (достоверность) связи.
Направление связи определяется по знаку корреляции: положительная – связь прямая; отрицательная – связь обратная.
Положительной корреляцией называется такая связь между переменными, когда значения обеих переменных возрастают или убывают пропорционально: с уменьшением (увеличением) одной уменьшается (увеличивается) другая. В случае отрицательной корреляции связь является обратно пропорциональной: возрастание одной переменной сопровождается убыванием другой.
Сила (теснота) связи определяется по абсолютной величине корреляции r (меняется от 0 до 1).
Надежность связи определяется p-уровнем статистической значимости (чем меньше p-уровень, тем выше статистическая значимость, достоверность связи).
Задача корреляционного анализа сводится к установлению направления связи между варьирующимися признаками, измерению её тесноты и проверке уровня значимости полученных коэффициентов корреляции.
Классификации корреляционных связей.
Первая классификация – общая.
Применима для коэффициента корреляции Пирсона.
Важно отметить, что эта классификация применима только при наличии нормального распределения признака. В остальных случаях нужно пользоваться таблицами (о которых мы говорили ранее):
Сильная (тесная) r> 0,7
Средняя 0,5
Вторая система – частная, применима для большинства критериев значимости различий признака и для коэффициента ранговой корреляции Спирмена.
Зависит от количества наблюдений n
Высоко значимая p ≤ 0,001
Значимая p ≤ 0,01
Тенденция p ≤ 0,05
Чем больше объем выборки, тем меньше величины коэффициента корреляции достаточно, чтобы корреляционная связь была признана достоверной. В результате при малом объеме выборки может оказаться так, что сильная корреляция недостоверна. В то же время при большом объеме выборки даже слабая корреляция достоверна.
Вопрос 3. Коэффициент линейной корреляции Пирсона. Ранговый
коэффициент корреляции Спирмена. Случай одинаковых
рангов
Коэффициент линейной корреляции Пирсона
Карл Пирсон опубликовал основополагающие труды по математической статистике (более 400 работ по этой теме). Разработал теорию корреляции, критерии согласия, алгоритмы принятия решений и оценки параметров.
Пирсон первым ввёл в науку понятие корреляции как вероятностный аналог причинно-следственной связи, но он же первым предупредил, что корреляционная связь шире, чем причинно- следственная, и, вообще говоря, доказанная корреляция двух факторов не означает, что один из факторов является причиной другого
(например, они оба могут быть следствием третьего фактора).
Подобная путаница стала распространённой со второй половины XX века.
Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных.
В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
Условия применения:
а) расчёт предполагает, что переменные X и Y распределены нормально; б) число значений переменной X должно быть равно числу значений переменной Y; в) признак должен быть измерен в шкале интервалов или отношений; г) число значений N должно быть от 5 до 1000.
s
r
Где d – величина отклонения от среднего арифметического рассчитывается для каждого числа по формуле: dx = X - Mx и dy = Y -
My
Алгоритм вычисления вручную будет вот такой:
1. Вычислим суммы анализируемых значений X и Y
2. Найдем средние арифметические для X и Y
3. Рассчитаем для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx и dy =
Y - My
4. Возведем в квадрат каждое значение отклонения dx и dy
5. Рассчитаем для каждой пары анализируемых значений произведение отклонений dx x dy
6. Определим значения суммы квадратов отклонений Σ(dx2) и
Σ(dy2)
7. Найдем значение суммы произведений отклонений Σ (dx x dy)
8. Рассчитаем значение коэффициента корреляции Пирсона rxy по приведенной выше формуле
9. Сделаем статистический вывод
Получается большой объем работы, поэтому намного проще сделать все с помощью программы в Excel, план работы будет вот такой:
Сначала определите переменную (А1), с которой будет исследоваться взаимозависимость всех других (B1, B2… и т. д.), и рассчитайте коэффициенты корреляции по следующему алгоритму:
1. Выделите свободную ячейку внизу анализируемого столбца данных (B1). На панели инструментов щелкните значок fx (Вставка функции). В мастере функций выберите категорию «Статистические» и функцию «КОРРЕЛ» (расчёт коэффициента корреляции между двумя множествами данных).
2. В аргументе функции в поле «Массив 1» укажите диапазон значений столбца переменных, для которых производится расчёт
(переменная А1 – один из стилей поведения в конфликтной ситуации).
3. В аргументе функции в поле «Массив 2» укажите диапазон значений столбца переменных, к которому принадлежит данная ячейка
(переменная B1 – одна из личностных особенностей), и нажмите ОК.
4. Аналогичным образом вычислите значения коэффициента корреляции для всех остальных переменных (В2, В3 и т. д. остальные личностные особенности)
Ранговый коэффициент корреляции Спирмена
В статистике Спирмен разработал ранговую корреляции (1904), это непараметрическая версия коэффициента корреляции Пирсона и самая ранняя версия «факторного анализа». Его статистическая работа не была оценена его коллегой из Университетского колледжа (Карл
Пирсон) и между ними была долгая вражда. Хотя в свое время
Спирмен добился наибольшего признания за свою статистическую
s
r
работу, он считал эту работу подчиненной его поискам фундаментальных законов психологии.
По Спирмену (непараметрический коэффициент корреляции, т. к. в формуле расчета не используются параметры распределения).
Используется в том случае, когда необходимо проверить, согласованно ли изменяются разные признаки у одного и того же испытуемого и насколько совпадают индивидуальные показатели у двух испытуемых.
Условия применения:
а) распределение не имеет значения; б) число значений переменной X должно быть равно числу значений переменной Y; в) признак может быть измерен в любых количественных шкалах или в ранговой шкале; г) любое количество измерений
Формула расчета будет такая:
Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:
1.Сопоставить каждому из признаков их порядковый номер
(ранг) по возрастанию или убыванию.
2. Определить разности рангов каждой пары сопоставляемых значений (d).
3. Возвести в квадрат каждую разность и суммировать полученные результаты.
4.
Вычислить коэффициент корреляции рангов по вышеуказанной формуле.
Случай одинаковых рангов.
В случае, если несколько значений равны, им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили бы, если бы не были равны. Например, если двое испытуемых в группе показали самый высокий одинаковый результат, то им присваивается средний ранг: 1,5 = (1+2)/2, если трое – то средний ранг будет равен 2 = (1+2+3)/3 и т. д.
Вопрос 4. Регрессионный анализ. Множественный регрессионный
анализ. Назначение и классификация многомерных методов
Чтобы понять, что такое регрессия, давайте посмотрим примеры, где регрессия может применяться.
Примеры применения регрессионного анализа:
По Спирмену (непараметрический коэффициент корреляции, т. к. в формуле расчета не используются параметры распределения).
Используется в том случае, когда необходимо проверить, согласованно ли изменяются разные признаки у одного и того же испытуемого и насколько совпадают индивидуальные показатели у двух испытуемых.
Условия применения:
а) распределение не имеет значения; б) число значений переменной X должно быть равно числу значений переменной Y; в) признак может быть измерен в любых количественных шкалах или в ранговой шкале; г) любое количество измерений
Формула расчета будет такая:
Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:
1.Сопоставить каждому из признаков их порядковый номер
(ранг) по возрастанию или убыванию.
2. Определить разности рангов каждой пары сопоставляемых значений (d).
3. Возвести в квадрат каждую разность и суммировать полученные результаты.
4.
Вычислить коэффициент корреляции рангов по вышеуказанной формуле.
Случай одинаковых рангов.
В случае, если несколько значений равны, им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили бы, если бы не были равны. Например, если двое испытуемых в группе показали самый высокий одинаковый результат, то им присваивается средний ранг: 1,5 = (1+2)/2, если трое – то средний ранг будет равен 2 = (1+2+3)/3 и т. д.
Вопрос 4. Регрессионный анализ. Множественный регрессионный
анализ. Назначение и классификация многомерных методов
Чтобы понять, что такое регрессия, давайте посмотрим примеры, где регрессия может применяться.
Примеры применения регрессионного анализа:
1. Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
2. Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат, наличие медицинских, школьных учреждений, географическое положение…
Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, которые мы пытаемся смоделировать или понять, запуская инструмент регрессии, чтобы определить, какие величины являются эффективными предсказателями.
Затем пошаговое удаление и/или добавление переменных до тех пор, пока вы не найдете наилучшим образом подходящую регрессионную модель. Так как процесс создания модели часто исследовательский, он никогда не должен становиться простым "подгоном" данных. Процесс построения регрессионной модели должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл.
Множественный регрессионный анализ
Множественный регрессионный анализ – это метод установления зависимости одной переменной от двух или более независимых переменных.
Назначение метода:
1) изучение взаимосвязи одной переменной («зависимой», результирующей) от нескольких других («независимых», исходных);
2) выявление среди «независимых» переменных наиболее существенных, важных для предсказания «зависимой», а также тех, которыми можно пренебречь, исключить в дальнейшем их из анализа.
Обычно множественный регрессионный анализ применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между значениями метрической
«зависимой» переменной Y и несколькими «независимыми» переменными X.
Назначение и классификация многомерных методов
Основная идея факторного анализа сформулирована еще Ф.
Гальтоном.
Она сводится к тому, что если несколько признаков, измеренных в группе индивидов, изменяются согласованно, то можно предположить существование одной общей причины этой совместной изменчивости – фактора как скрытой, непосредственно не доступной измерению переменной.
Фактор – скрытая причина согласованной изменчивости наблюдаемой переменной, искусственный статистический показатель, возникающий в результате специальных преобразований