ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3639
Скачиваний: 4
117
Линейная регрессия
Удаленные.
Остаток для наблюдения
,
когда данное наблюдение исключается при
вычислении регрессионных коэффициентов
.
Это разность между значением зависимой
переменной и скорректированным предсказанным значением
.
Стьюдентизированные удаленные.
Остаток для удаленного наблюдения
,
деленный на
его стандартную ошибку
.
Разность между стьюдентизированным остатком с удалением
и соответствующим ему стьюдентизированным остатком указывает
,
насколько сильно
исключение наблюдения влияет на предсказание для него самого
.
Статистики влияния.
Изменение в регрессионных коэффициентах
(DfBeta)
и
предсказанных значениях
(DfFit),
вызванное исключением из анализа конкретного
наблюдения
.
Доступны также стандартизованные значения
DfBeta
и
DfFit
вместе с
ковариационным отношением
.
DfBeta(s).
Разница в значении бета
—
это изменение регрессионного коэффициента в
результате исключения отдельного наблюдения
.
Значение вычисляется для каждого
компонента модели
,
включая свободный член
.
Стандартизованные DfBeta.
Стандартизованная разность значений бета
.
Изменение
коэффициента регрессии при исключении отдельного наблюдения
.
Имеет смысл
исследовать наблюдения
,
у которых модуль этого значения
,
больше
,
чем
2/
корень
квадратный из
(N),
где
N -
число наблюдений
.
Значение вычисляется для каждого
компонента модели
,
включая свободный член
.
DfFit.
Разница в величине подгонки
—
это изменение предсказанного значения в
результате исключения отдельного наблюдения
.
Стандартизованные DfFit.
Стандартизованная разность предсказанных значений
.
Изменение предсказанного значения при исключении отдельного наблюдения
.
Имеет
смысл исследовать наблюдения
,
у которых модуль этого значения больше
,
чем
2 *
корень квадратный из
(p/N),
где
p -
число параметров в модели
,
а
N -
число наблюдений
.
Ковариационное отношение.
Отношение определителя ковариационной матрицы
,
вычисленного без данного наблюдения
,
к определителю ковариационной матрицы
,
вычисленной для всей выборки
.
Если это отношение близко к
1,
данное наблюдение не
влияет на ковариационную матрицу существенно
.
Статистики коэффициентов
Сохраняет коэффициенты регрессии в наборе данных или
файле данных
.
Наборы данных доступны для последующего использования в том же
сеансе но не сохраняются как файлы до тех пор
,
пока они не будут сохранены явно до
окончания текущего сеанса
.
Имена наборов данных должны удовлетворять требованиям к
именам переменных
.
Экспортировать модель в формате XML
Оценки параметров и их ковариации
(
если
помечено
)
экспортируются в специальный файл в формате
XML (PMML).
Этот файл
модели можно использовать для применения информации о модели к другим файлам
данных с целью скоринга
.
118
Глава 16
Статистики процедуры Линейная регрессия
Рисунок 16-5
Диалоговое окно Статистики
Доступны следующие статистики
:
Коэффициенты регрессии.
Установка флажка
Оценки
позволяет вывести коэффициент
регрессии
B
,
стандартную ошибку коэффициента
B
,
стандартизованный коэффициент
бета
,
t
значение для
B
и двусторонний уровень значимости для
t
.
Установка флажка
Доверительные интервалы
позволяет вывести доверительные интервалы с указанным
уровнем доверия для каждого регрессионного коэффициента или ковариационной матрицы
.
Установка флажка
Матрица ковариаций
выводит матрицу дисперсий
-
ковариаций оценок
регрессионных коэффициентов с дисперсиями на диагонали и с ковариациями вне ее
.
Также выводится корреляционная матрица
.
Согласие модели.
Перечисляются переменные
,
включаемые в модель и исключаемые
из нее
,
и выдаются следующие статистики согласия
:
множественный
R
,
R
2
,
скорректированный
R
2
,
стандартная ошибка оценки
,
таблица дисперсионного анализа
.
Изменение R-квадрат.
Изменение статистики
R
2
,
вызванное добавлением или удалением
независимой переменной
.
Если изменение
R
2
,
связанное с переменной
,
велико
,
то это
означает
,
что данная переменная
–
хороший предиктор зависимой переменной
.
Описательные статистики.
Выдается число наблюдений без пропущенных значений
,
среднее значение и стандартное отклонение для каждой анализируемой переменной
.
Выводятся также корреляционная матрица с односторонним уровнем значимости и числом
наблюдений для каждой корреляции
.
Частная корреляция.
Корреляция между двумя переменными
,
оставшаяся после удаления
корреляции
,
относящейся к их общей связи с другими переменными
.
Корреляция между
зависимой и независимой переменной
,
когда из них исключены линейные эффекты других
независимых переменных модели
.
119
Линейная регрессия
Частичные корреляции.
Корреляция между зависимой переменной и независимой
переменной
,
вычисленная после того
,
как из независимой переменной удалена линейная
связь с остальными независимыми переменными в модели
.
Она связана с изменением
R-
квадрат
,
когда переменная добавляется в уравнение
.
Иногда она называется получастной
корреляцией
.
Диагностика коллинеарности.
Коллинеарность
(
или мультиколлинеарность
) –
это
нежелательная ситуация
,
когда одна независимая переменная является линейной
комбинацией других независимых переменных
.
Выводятся собственные значения
масштабированной и нецентрированной матрицы сумм перекрестных произведений
,
показатели обусловленности
,
доли в разложении дисперсии
,
а также коэффициенты
разбухания дисперсии
(VIF – variance inflation factor),
толерантности
(
допуски
)
для
отдельных переменных
.
Остатки.
Выводится критерий Дурбина
-
Уотсона сериальной корреляции остатков и
поточечная диагностика для наблюдений
,
удовлетворяющих критерию отбора
(
выбросы
свыше
n
стандартных отклонений
).
Параметры процедуры Линейная регрессия
Рисунок 16-6
Диалоговое окно Линейная регрессия: Параметры
Доступны следующие параметры
:
Критерий шагового метода.
Эти параметры применяются
,
если в качестве метода отбора
выбрано Включение
,
Исключение либо Шаговый отбор
.
Переменные могут быть введены в
модель или исключены из модели на основе либо значимости
(
вероятности
)
F
-
статистики
,
либо самого значения
F
-
статистики
.
Использовать вероятность F.
Переменная вводится в модель
,
если наблюдаемый
уровень значимости ее
F-
значения меньше заданного порога включения
,
и исключается
,
если этот уровень значимости больше порога исключения
.
Порог включения должен
быть меньше порога исключения
,
они оба должны быть положительными
.
Если
120
Глава 16
необходимо включить в модель больше переменных
,
увеличьте порог включения
.
Чтобы исключить из модели большее число переменных
,
снизьте порог исключения
.
Использовать F-значение.
Переменная вводится в модель
,
если ее
F-
значение
превышает заданное значение включения
,
и исключается
,
если ее
F-
значение меньше
значения исключения
.
Значение включения должно превосходить значение исключения
,
оба должны быть положительными
.
Если необходимо ввести в модель больше
переменных
,
снизьте порог включения
.
Чтобы исключить из модели большее число
переменных
,
увеличьте порог исключения
.
Включить в уравнение константу.
По умолчанию регрессионная модель содержит
свободный член
–
константу
.
Если удалить этот флажок
,
линия регрессии будет проходить
через начало координат
,
что используется редко
.
Некоторые результаты для регрессии
,
проходящей через начало координат
,
несравнимы с результатами регрессии
,
содержащей
константу
.
Например
,
R
2
для регрессии
,
проходящей через начало координат
,
невозможно
интерпретировать обычным образом
.
Пропущенные значения.
Вы можете выбрать один из следующих вариантов
:
Исключать целиком.
В анализ включаются только наблюдения без пропущенных
значений для всех анализируемых переменных
.
Исключать попарно.
При вычислении коэффициентов корреляции
,
применяемых в
процедуре регрессии
,
используются только те наблюдения
,
у которых для данной
пары переменных оба значения не пропущены
.
Числа степеней свободы основаны
на минимальном попарном
N
.
Заменить средним.
Для вычислений используются все наблюдения
,
а пропущенные
значения заменяются средним значением этой переменной
.
Команда REGRESSION: дополнительные возможности
Язык синтаксиса команд также позволяет
:
Сохранять матрицу корреляций или считывать матрицу вместо исходных данных для
выполнения регрессионного анализа
(
с помощью подкоманды
MATRIX
).
Задавать уровни толерантности
(
с помощью подкоманды
CRITERIA
).
Получать несколько моделей для одной и той же или разных зависимых переменных
(
с
помощью подкоманд
METHOD
и
DEPENDENT
.)
Получать дополнительные статистики
(
с помощью подкоманд
DESCRIPTIVES
и
STATISTICS
.)
Обратитесь к
Command Syntax Reference
за полной информацией о синтаксисе языка команд
.
Глава
17
Порядковая регрессия
Порядковая регрессия позволяет моделировать зависимость политомического порядкового
отклика от набора предикторов
,
которые могут быть факторами или ковариатами
.
Реализация процедуры Порядковая регрессия основывается на методологии Мак
-
Калага
(McCullagh (1980, 1998)),
и эта процедура в языке команд называется
PLUM
.
Стандартный линейный регрессионный анализ включает минимизацию суммы
квадратов разностей между переменной отклика
(
зависимой
)
и взвешенной комбинацией
предикторных
(
независимых
)
переменных
.
Оцененные коэффициенты отражают
,
насколько
изменения значений предикторов влияет на отклик
.
Предполагается
,
что отклик является
числовым в том смысле
,
что изменения уровня отклика эквивалентны для всего диапазона
значений отклика
.
Например
,
различие в росте между человеком ростом
150
см и человеком
ростом
140
см составляет
10
см
,
которое имеет то же значение
,
что и различие в росте
между человеком ростом
210
см и человеком ростом
200
см
.
Это свойство необязательно
справедливо для порядковых переменных
,
для которых выбор категорий отклика и их
числа может быть весьма произвольным
.
Пример.
Порядковую регрессию можно использовать для изучения реакции пациента
на дозировку лекарственного препарата
.
Возможные реакции можно классифицировать
как
отсутствие
,
слабая
,
умеренная
или
сильная
.
Различие между слабой и умеренной
реакциями трудно либо невозможно выразить количественно
,
и оно зависит от восприятия
.
Более того
,
различие между слабой и умеренной реакциями может быть больше или
меньше
,
чем различие между умеренной и сильной реакциями
.
Статистики и графики.
Наблюденные и ожидаемые частоты
,
а также накопленные частоты
,
остатки Пирсона для частот и накопленных частот
,
наблюденные и ожидаемые вероятности
,
наблюденные и ожидаемые накопленные вероятности каждой категории отклика по
наборам значений
,
которые принимали ковариаты
,
асимптотические ковариационная и
корреляционная матрицы оценок параметров
,
хи
-
квадрат Пирсона и хи
-
квадрат отношения
правдоподобия
,
статистики согласия
,
история итераций
,
проверка предположения о
параллельности линий
,
оценки параметров
,
стандартные ошибки
,
доверительные
интервалы
,
а также статистики Кокса и Снелла
,
Нэйджелкерка и
R
2
МакФаддена
.
Данные.
Предполагается
,
что зависимая переменная является порядковой и может быть
числовой или текстовой
.
Упорядочение определяется сортировкой значений зависимой
переменной в порядке возрастания
.
Наименьшее значение задает первую категорию
.
Предполагается
,
что факторные переменные являются категориальными
.
Переменные
ковариат должны быть числовыми
.
Обратите внимание на то
,
что использование более чем
одной непрерывной ковариаты может легко привести к созданию очень большой таблицы
вероятностей ячеек
.
Предположения.
Допускается только одна переменная отклика
,
и она должна быть задана
.
Кроме того
,
предполагается
,
что для всех различающихся наборов значений независимых
переменных отклики являются независимыми мультиномиальными переменными
.
© Copyright IBM Corporation 1989, 2011.
121