ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1669
Скачиваний: 36
131
воздействию случайных ошибок, а значения
i
Y
имеют
случайный разброс относительно среднего, зависящего от
модели.) Допустим, что имеются данные
)
,
),...(
,
(
1
1
n
n
Y
X
Y
X
.
Применяя уравнение (9.30), мы можем получить
YX
XY
r
r
, а
если постулировать модель
X
Y
1
0
, то можно
получить оценку коэффициента регрессии
1
b
по уравнению:
n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2
1
)
(
)
(
=
2
)
(
)
)(
(
X
X
Y
Y
X
X
i
i
i
Рассмотрим, как связаны между собой
XY
r
и
1
b
. Сравнивая
уравнение (9.30) при замене
U
и
W
на
X
и
Y
с уравнением
для
1
b
, видим, что
2
2
1
)
(
)
(
X
X
Y
Y
r
b
i
i
XY
,
где суммирование ведется по
n
i
,...
2
,
1
.
Иными словами,
1
b
– это «взвешенный» вариант величины
XY
r
, причем взвешивание происходит с помощью отношения
разброса
i
Y
к разбросу
i
X
. Если мы запишем, что
2
2
)
(
)
1
(
Y
Y
s
n
i
Y
,
2
2
)
(
)
1
(
X
X
s
n
i
X
, то
X
Y
XY
s
s
r
b
1
.
Таким образом,
1
b
и
XY
r
весьма близки, но интерпретируются
по-разному. Коэффициент
XY
r
измеряет связь между
X
и
Y
, в
то время как
1
b
измеряет величину изменения переменной
Y
,
которую
можно
предсказать,
если
изменение
переменной
1
X
.
Множественный коэффициент корреляции, который уже
был рассмотрен, равен
132
2
2
2
)
(
)
(
Y
Y
Y
Y
R
i
i
.
Кроме того
R
r
Y
Y
, (9.31)
т.е.
R
равно корреляции между имеющимися наблюдениями
i
Y
и предсказанными значениями
i
Y
. Уравнение (9.31)
справедливо для любой линейной регрессии с любым числом
предикторов.
Обратная регрессия (случай прямой линии)
Допустим, что мы подобрали уравнение прямой
X
b
b
Y
1
0
по множеству данных
)
,
(
i
i
Y
X
,
n
i
,...
2
,
1
. И
теперь хотим для определенного значения
Y
, например
0
Y
,
получить предсказанное значение
0
X
, соответствующее
значению
X
. А еще хотим получить доверительный интервал,
устанавливаемый для
X
вокруг
0
X
. Это задача обратной
регрессии.
Есть несколько способов решения задач такого типа.
Допустим, что
0
Y
есть среднее арифметическое
q
наблюдений. Нарисуем полученную прямую и доверительные
интервалы для
Y
при данном
X
(рис.9.6).
133
Рис.9.6
На высоте
0
Y
проведем горизонтальную линию, параллельную
оси
X
. Там, где эта линия пересечет кривые доверительных
интервалов, опустим перпендикуляры на ось
X
и получим
точки:
L
X
– нижний
)
1
(
100
% и
U
X
– верхний
)
1
(
100
% пределы. Перпендикуляр, опущенный на ось
X
из точки пересечения двух прямых, дает обратную оценку
X
,
определяемую
как
решение
уравнения
0
1
0
X
b
b
Y
b
относительно
0
X
, а именно:
1
0
0
0
)
(
b
b
Y
X
.
Для получения значений
L
X
и
U
X
можно поступить так. На
рис. 9.6
L
X
– это координата точки пересечения прямой
0
Y
Y
(т.е.
0
1
0
X
b
b
Y
) (9.32)
и кривой
XX
L
XL
s
X
X
n
ts
Y
Y
2
)
(
1
, (9.33)
,
где
134
2
)
(
X
X
s
i
XX
,
L
XL
X
b
b
Y
1
0
,
)
2
1
,
(
v
t
t
– обычная
процентная точка для
t
-критерия, а
v
– число степеней
свободы для
2
s
.
Приравнивание уравнений (9.32) и (9.33), сокращение
0
b
,
перенесение квадратного корня из левой части уравнения в
правую, возведение обеих частей в квадрат для избавления от
корня приводит к следующему уравнению относительно
L
X
:
0
2
2
R
QX
PX
L
L
, (9.34)
где
XX
s
s
t
b
P
2
2
2
1
,
XX
s
X
s
t
X
b
Q
2
2
0
2
1
,
XX
s
X
s
t
n
s
t
X
b
R
2
2
2
2
2
2
0
2
1
.
Мы получим то же самое уравнение для
U
X
.
Таким образом,
L
X
и
U
X
– оказываются корнями уравнения
(9.34), т.е.
)
(
)
(
)
(
]
)
(
[
)
(
2
2
2
1
2
2
2
1
2
0
0
1
XX
XX
XX
s
s
t
b
ns
s
t
n
b
s
Y
Y
ts
Y
Y
b
X
.
Обратное оценивание не имеет большого практического
значения, если регрессия не достаточно хорошо определена,
т.е. если
1
b
– не значим. При этом может случиться так, что
корни
L
X
и
U
X
могут, вообще говоря, оказаться
комплексными
Решение о стратегии эксперимента
Пусть экспериментатор хочет собрать данные об отклике
Y
при
n
выбранных значениях предиктора для определения
135
эмпирической зависимости между
Y
и этим предиктором.
Пусть предиктор не подвержен действию случайной ошибки, а
Y
-отклик – подвержен. Будем считать, что допускаются
повторные опыты.
Перед экспериментатором стоит масса вопросов.
1) Какой диапазон значений предиктора выбрать?
Диапазон должен быть достаточно широк, чтобы сделать
полезные выводы. Вместе с тем, он должен быть достаточно
узок, чтобы результаты представить простейшей моделью.
Когда решение принято, диапазон, или интервал,
)
1
,
1
(
кодируется без нарушения общности.
Допустим, что если время T. изменяется в диапазоне
c
T
c
200
140
, то кодирование
30
)
170
(
T
X
даст
интервал
)
1
,
1
(
. Преобразование здесь имеет вид
X= (натур. величина – середина натур. интервала)/половина
диапазона
2) Какого рода зависимость окажется правильной?
3) А если предложенная зависимость ошибочна? Какую
альтернативу выбрать? Если была прямая линия, то
альтернатива представляет квадратичную зависимость?
4) Каков разброс, присущий отклику, т.е. чему равна
2
)
(
Y
D
. В данном случае экспериментатор, возможно,
пожелает для оценки
2
присоединить повторные опыты.
5) Сколько опытов может понадобиться?
6) Сколько мест (т.е. различных значений
X
) стоит выбрать?
Сколько повторных опытов имеет смысл проводить в каждом
месте?
Рассмотрим конкретный пример. Допустим, наш
экспериментатор решил, что во всем диапазоне
1
1
X
кодированного предиктора наиболее правдоподобна линейная
зависимость, возможна квадратичная альтернатива, дисперсии
2
, всего возможны 14 опытов.
Так при каких же значениях
X
(т.е. в каких местах)
стоит проводить опыты, сколько в каждом из этих мест и на
каком основании? Каждый план с самого начала имеет 14