ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3639

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

117

Линейная регрессия

Удаленные.

Остаток для наблюдения

,

когда данное наблюдение исключается при

вычислении регрессионных коэффициентов

.

Это разность между значением зависимой

переменной и скорректированным предсказанным значением

.

Стьюдентизированные удаленные.

Остаток для удаленного наблюдения

,

деленный на

его стандартную ошибку

.

Разность между стьюдентизированным остатком с удалением

и соответствующим ему стьюдентизированным остатком указывает

,

насколько сильно

исключение наблюдения влияет на предсказание для него самого

.

Статистики влияния.

Изменение в регрессионных коэффициентах

(DfBeta)

и

предсказанных значениях

(DfFit),

вызванное исключением из анализа конкретного

наблюдения

.

Доступны также стандартизованные значения

DfBeta

и

DfFit

вместе с

ковариационным отношением

.

DfBeta(s).

Разница в значении бета

это изменение регрессионного коэффициента в

результате исключения отдельного наблюдения

.

Значение вычисляется для каждого

компонента модели

,

включая свободный член

.

Стандартизованные DfBeta.

Стандартизованная разность значений бета

.

Изменение

коэффициента регрессии при исключении отдельного наблюдения

.

Имеет смысл

исследовать наблюдения

,

у которых модуль этого значения

,

больше

,

чем

2/

корень

квадратный из

(N),

где

N -

число наблюдений

.

Значение вычисляется для каждого

компонента модели

,

включая свободный член

.

DfFit.

Разница в величине подгонки

это изменение предсказанного значения в

результате исключения отдельного наблюдения

.

Стандартизованные DfFit.

Стандартизованная разность предсказанных значений

.

Изменение предсказанного значения при исключении отдельного наблюдения

.

Имеет

смысл исследовать наблюдения

,

у которых модуль этого значения больше

,

чем

2 *

корень квадратный из

(p/N),

где

p -

число параметров в модели

,

а

N -

число наблюдений

.

Ковариационное отношение.

Отношение определителя ковариационной матрицы

,

вычисленного без данного наблюдения

,

к определителю ковариационной матрицы

,

вычисленной для всей выборки

.

Если это отношение близко к

1,

данное наблюдение не

влияет на ковариационную матрицу существенно

.

Статистики коэффициентов

Сохраняет коэффициенты регрессии в наборе данных или

файле данных

.

Наборы данных доступны для последующего использования в том же

сеансе но не сохраняются как файлы до тех пор

,

пока они не будут сохранены явно до

окончания текущего сеанса

.

Имена наборов данных должны удовлетворять требованиям к

именам переменных

.

Экспортировать модель в формате XML

Оценки параметров и их ковариации

(

если

помечено

)

экспортируются в специальный файл в формате

XML (PMML).

Этот файл

модели можно использовать для применения информации о модели к другим файлам
данных с целью скоринга

.


background image

118

Глава 16

Статистики процедуры Линейная регрессия

Рисунок 16-5

Диалоговое окно Статистики

Доступны следующие статистики

:

Коэффициенты регрессии.

Установка флажка

Оценки

позволяет вывести коэффициент

регрессии

B

,

стандартную ошибку коэффициента

B

,

стандартизованный коэффициент

бета

,

t

значение для

B

и двусторонний уровень значимости для

t

.

Установка флажка

Доверительные интервалы

позволяет вывести доверительные интервалы с указанным

уровнем доверия для каждого регрессионного коэффициента или ковариационной матрицы

.

Установка флажка

Матрица ковариаций

выводит матрицу дисперсий

-

ковариаций оценок

регрессионных коэффициентов с дисперсиями на диагонали и с ковариациями вне ее

.

Также выводится корреляционная матрица

.

Согласие модели.

Перечисляются переменные

,

включаемые в модель и исключаемые

из нее

,

и выдаются следующие статистики согласия

:

множественный

R

,

R

2

,

скорректированный

R

2

,

стандартная ошибка оценки

,

таблица дисперсионного анализа

.

Изменение R-квадрат.

Изменение статистики

R

2

,

вызванное добавлением или удалением

независимой переменной

.

Если изменение

R

2

,

связанное с переменной

,

велико

,

то это

означает

,

что данная переменная

хороший предиктор зависимой переменной

.

Описательные статистики.

Выдается число наблюдений без пропущенных значений

,

среднее значение и стандартное отклонение для каждой анализируемой переменной

.

Выводятся также корреляционная матрица с односторонним уровнем значимости и числом
наблюдений для каждой корреляции

.

Частная корреляция.

Корреляция между двумя переменными

,

оставшаяся после удаления

корреляции

,

относящейся к их общей связи с другими переменными

.

Корреляция между

зависимой и независимой переменной

,

когда из них исключены линейные эффекты других

независимых переменных модели

.


background image

119

Линейная регрессия

Частичные корреляции.

Корреляция между зависимой переменной и независимой

переменной

,

вычисленная после того

,

как из независимой переменной удалена линейная

связь с остальными независимыми переменными в модели

.

Она связана с изменением

R-

квадрат

,

когда переменная добавляется в уравнение

.

Иногда она называется получастной

корреляцией

.

Диагностика коллинеарности.

Коллинеарность

(

или мультиколлинеарность

) –

это

нежелательная ситуация

,

когда одна независимая переменная является линейной

комбинацией других независимых переменных

.

Выводятся собственные значения

масштабированной и нецентрированной матрицы сумм перекрестных произведений

,

показатели обусловленности

,

доли в разложении дисперсии

,

а также коэффициенты

разбухания дисперсии

(VIF – variance inflation factor),

толерантности

(

допуски

)

для

отдельных переменных

.

Остатки.

Выводится критерий Дурбина

-

Уотсона сериальной корреляции остатков и

поточечная диагностика для наблюдений

,

удовлетворяющих критерию отбора

(

выбросы

свыше

n

стандартных отклонений

).

Параметры процедуры Линейная регрессия

Рисунок 16-6

Диалоговое окно Линейная регрессия: Параметры

Доступны следующие параметры

:

Критерий шагового метода.

Эти параметры применяются

,

если в качестве метода отбора

выбрано Включение

,

Исключение либо Шаговый отбор

.

Переменные могут быть введены в

модель или исключены из модели на основе либо значимости

(

вероятности

)

F

-

статистики

,

либо самого значения

F

-

статистики

.

Использовать вероятность F.

Переменная вводится в модель

,

если наблюдаемый

уровень значимости ее

F-

значения меньше заданного порога включения

,

и исключается

,

если этот уровень значимости больше порога исключения

.

Порог включения должен

быть меньше порога исключения

,

они оба должны быть положительными

.

Если


background image

120

Глава 16

необходимо включить в модель больше переменных

,

увеличьте порог включения

.

Чтобы исключить из модели большее число переменных

,

снизьте порог исключения

.

Использовать F-значение.

Переменная вводится в модель

,

если ее

F-

значение

превышает заданное значение включения

,

и исключается

,

если ее

F-

значение меньше

значения исключения

.

Значение включения должно превосходить значение исключения

,

оба должны быть положительными

.

Если необходимо ввести в модель больше

переменных

,

снизьте порог включения

.

Чтобы исключить из модели большее число

переменных

,

увеличьте порог исключения

.

Включить в уравнение константу.

По умолчанию регрессионная модель содержит

свободный член

константу

.

Если удалить этот флажок

,

линия регрессии будет проходить

через начало координат

,

что используется редко

.

Некоторые результаты для регрессии

,

проходящей через начало координат

,

несравнимы с результатами регрессии

,

содержащей

константу

.

Например

,

R

2

для регрессии

,

проходящей через начало координат

,

невозможно

интерпретировать обычным образом

.

Пропущенные значения.

Вы можете выбрать один из следующих вариантов

:

Исключать целиком.

В анализ включаются только наблюдения без пропущенных

значений для всех анализируемых переменных

.

Исключать попарно.

При вычислении коэффициентов корреляции

,

применяемых в

процедуре регрессии

,

используются только те наблюдения

,

у которых для данной

пары переменных оба значения не пропущены

.

Числа степеней свободы основаны

на минимальном попарном

N

.

Заменить средним.

Для вычислений используются все наблюдения

,

а пропущенные

значения заменяются средним значением этой переменной

.

Команда REGRESSION: дополнительные возможности

Язык синтаксиса команд также позволяет

:

Сохранять матрицу корреляций или считывать матрицу вместо исходных данных для

выполнения регрессионного анализа

(

с помощью подкоманды

MATRIX

).

Задавать уровни толерантности

(

с помощью подкоманды

CRITERIA

).

Получать несколько моделей для одной и той же или разных зависимых переменных

(

с

помощью подкоманд

METHOD

и

DEPENDENT

.)

Получать дополнительные статистики

(

с помощью подкоманд

DESCRIPTIVES

и

STATISTICS

.)

Обратитесь к

Command Syntax Reference

за полной информацией о синтаксисе языка команд

.


background image

Глава

17

Порядковая регрессия

Порядковая регрессия позволяет моделировать зависимость политомического порядкового
отклика от набора предикторов

,

которые могут быть факторами или ковариатами

.

Реализация процедуры Порядковая регрессия основывается на методологии Мак

-

Калага

(McCullagh (1980, 1998)),

и эта процедура в языке команд называется

PLUM

.

Стандартный линейный регрессионный анализ включает минимизацию суммы

квадратов разностей между переменной отклика

(

зависимой

)

и взвешенной комбинацией

предикторных

(

независимых

)

переменных

.

Оцененные коэффициенты отражают

,

насколько

изменения значений предикторов влияет на отклик

.

Предполагается

,

что отклик является

числовым в том смысле

,

что изменения уровня отклика эквивалентны для всего диапазона

значений отклика

.

Например

,

различие в росте между человеком ростом

150

см и человеком

ростом

140

см составляет

10

см

,

которое имеет то же значение

,

что и различие в росте

между человеком ростом

210

см и человеком ростом

200

см

.

Это свойство необязательно

справедливо для порядковых переменных

,

для которых выбор категорий отклика и их

числа может быть весьма произвольным

.

Пример.

Порядковую регрессию можно использовать для изучения реакции пациента

на дозировку лекарственного препарата

.

Возможные реакции можно классифицировать

как

отсутствие

,

слабая

,

умеренная

или

сильная

.

Различие между слабой и умеренной

реакциями трудно либо невозможно выразить количественно

,

и оно зависит от восприятия

.

Более того

,

различие между слабой и умеренной реакциями может быть больше или

меньше

,

чем различие между умеренной и сильной реакциями

.

Статистики и графики.

Наблюденные и ожидаемые частоты

,

а также накопленные частоты

,

остатки Пирсона для частот и накопленных частот

,

наблюденные и ожидаемые вероятности

,

наблюденные и ожидаемые накопленные вероятности каждой категории отклика по
наборам значений

,

которые принимали ковариаты

,

асимптотические ковариационная и

корреляционная матрицы оценок параметров

,

хи

-

квадрат Пирсона и хи

-

квадрат отношения

правдоподобия

,

статистики согласия

,

история итераций

,

проверка предположения о

параллельности линий

,

оценки параметров

,

стандартные ошибки

,

доверительные

интервалы

,

а также статистики Кокса и Снелла

,

Нэйджелкерка и

R

2

МакФаддена

.

Данные.

Предполагается

,

что зависимая переменная является порядковой и может быть

числовой или текстовой

.

Упорядочение определяется сортировкой значений зависимой

переменной в порядке возрастания

.

Наименьшее значение задает первую категорию

.

Предполагается

,

что факторные переменные являются категориальными

.

Переменные

ковариат должны быть числовыми

.

Обратите внимание на то

,

что использование более чем

одной непрерывной ковариаты может легко привести к созданию очень большой таблицы
вероятностей ячеек

.

Предположения.

Допускается только одна переменная отклика

,

и она должна быть задана

.

Кроме того

,

предполагается

,

что для всех различающихся наборов значений независимых

переменных отклики являются независимыми мультиномиальными переменными

.

© Copyright IBM Corporation 1989, 2011.

121