Файл: Методические рекомендации по выполнению упражнения Предположим, вы решили оценить функцию спроса на белый хлеб, те выбрали в качестве зависимой переменной dbread.pdf
Добавлен: 09.12.2023
Просмотров: 12
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
РОССИЙСКИЙ УНИВЕРСИТЕТ ДРУЖБЫ НАРОДОВ Факультет физико-математических и естественных наук Кафедра прикладной информатики и теории вероятностей ОТЧЕТ ПО ЛАБОРАТОРНОЙ РАБОТЕ № Дисциплина Эконометрическое моделирование Студент Милёхин Александр
Группа: НПМмд-02-21 МОСКВА
2022
Группа: НПМмд-02-21 МОСКВА
2022
Упражнение 1.1. Оценка функций спроса на основные виды товаров в Москве В файле data 1.1 используются данные (в формате Excel) 14 раунда базы данных RLMS
(РМЭЗ — Российского мониторинга экономического положения и здоровья населения, касающиеся потребления домохозяйствами Москвы основных продуктов питания в 2005 г. Переменные
INCOME (руб) доход домохозяйства за месяц,
DBREAD (кг) — вес белого хлеба, купленного домохозяйством за последние 7 дней,
PBREAD (руб) — цена 1 кг купленного хлеба,
DPOTAT (кг) — вес картофеля, купленного домохозяйством за последние 7 дней,
РРОТАТ (руб) — цена 1 кг купленного картофеля,
DMACAR (кг) — вес макаронных изделий, купленных домохозяйством за последние 7 дней,
PMACAR (руб) — цена 1 кг купленных макаронных изделий,
DEGGS (десятков) — количество десятков яиц, купленных домохозяйством за последние 7 дней,
PEGGS (руб цена 1 десятка купленных яиц,
DMILK (л) — объем молока, купленного домохозяйством за последние 7 дней,
PMILK (руб) — цена 1 л купленного молока.
1. Выберите один из товаров из приведенного выше списка.
2. Оцените параметры уравнения регрессии
???? = ????
1
+ ????
2
???? + ???? где ???? — спрос домохозяйств на выбранный товар, ???? цена выбранного товара.
3. Проверьте значимость коэффициента ????
2
и сделайте вывод, влияет ли цена товара на спрос на него и если влияет, то каким образом. Методические рекомендации по выполнению упражнения 1.1. Предположим, вы решили оценить функцию спроса на белый хлеб, те. выбрали в качестве зависимой переменной DBREAD.
1. Оцените параметры уравнения регрессии
???? = ????
1
+ ????
2
???? + ???? где ???? = ????????????????????????,???? = ????????????????????????.
2. Если р для статистики коэффициента ????
2
меньше выбранного вами уровня значимости, например 0,05, то коэффициент ????
2
является значимым. В этом случае при увеличении цены белого хлебана руб. спрос домохозяйств на белый хлеб изменится на
????̂
2 3. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
DPOTAT
– Регрессоры const и PPOTAT – Ок
(РМЭЗ — Российского мониторинга экономического положения и здоровья населения, касающиеся потребления домохозяйствами Москвы основных продуктов питания в 2005 г. Переменные
INCOME (руб) доход домохозяйства за месяц,
DBREAD (кг) — вес белого хлеба, купленного домохозяйством за последние 7 дней,
PBREAD (руб) — цена 1 кг купленного хлеба,
DPOTAT (кг) — вес картофеля, купленного домохозяйством за последние 7 дней,
РРОТАТ (руб) — цена 1 кг купленного картофеля,
DMACAR (кг) — вес макаронных изделий, купленных домохозяйством за последние 7 дней,
PMACAR (руб) — цена 1 кг купленных макаронных изделий,
DEGGS (десятков) — количество десятков яиц, купленных домохозяйством за последние 7 дней,
PEGGS (руб цена 1 десятка купленных яиц,
DMILK (л) — объем молока, купленного домохозяйством за последние 7 дней,
PMILK (руб) — цена 1 л купленного молока.
1. Выберите один из товаров из приведенного выше списка.
2. Оцените параметры уравнения регрессии
???? = ????
1
+ ????
2
???? + ???? где ???? — спрос домохозяйств на выбранный товар, ???? цена выбранного товара.
3. Проверьте значимость коэффициента ????
2
и сделайте вывод, влияет ли цена товара на спрос на него и если влияет, то каким образом. Методические рекомендации по выполнению упражнения 1.1. Предположим, вы решили оценить функцию спроса на белый хлеб, те. выбрали в качестве зависимой переменной DBREAD.
1. Оцените параметры уравнения регрессии
???? = ????
1
+ ????
2
???? + ???? где ???? = ????????????????????????,???? = ????????????????????????.
2. Если р для статистики коэффициента ????
2
меньше выбранного вами уровня значимости, например 0,05, то коэффициент ????
2
является значимым. В этом случае при увеличении цены белого хлебана руб. спрос домохозяйств на белый хлеб изменится на
????̂
2 3. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
DPOTAT
– Регрессоры const и PPOTAT – Ок
Модель 1: МНК, использованы наблюдения 1-111 Зависимая переменная DPOTAT Коэффициент Ст. ошибка статистика значение const
8,32844 1,77700 4,687
<0,0001
***
PPOTAT
−0,282803 0,163483
−1,730 0,0865
* Среднее завис. перемен
5,351351 Ст. откл. завис. перем
4,705217 Сумма кв. остатков
2370,227 Ст. ошибка модели
4,663175 квадрат
0,026720 Исправ. квадрат
0,017791
F(1, 109)
2,992416 Р-значение (F)
0,086486 Лог. правдоподобие
−327,3994 Крит. Акаике
658,7987 Крит. Шварца
664,2178 Крит. Хеннана-Куинна
660,9971 Уравнение регрессии имеет вид
???? = 8.32844 − 0.282803????
(1.77700) (0.163483) Здесь Y – спрос домохозяйств на картофель, X – цена на картофель Проверим значимость коэффициента ????2 и сделаем вывод, влияет ли цена товара на спрос на него и если влияет, то каким образом.
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
2
= 0,0865 Выберем уровень значимости ???? = 0,1 0,0865 < 0,1 => принимаем гипотезу Нс вероятностью 90%, те. коэффициент регрессии
????2 значим.
8,32844 1,77700 4,687
<0,0001
***
PPOTAT
−0,282803 0,163483
−1,730 0,0865
* Среднее завис. перемен
5,351351 Ст. откл. завис. перем
4,705217 Сумма кв. остатков
2370,227 Ст. ошибка модели
4,663175 квадрат
0,026720 Исправ. квадрат
0,017791
F(1, 109)
2,992416 Р-значение (F)
0,086486 Лог. правдоподобие
−327,3994 Крит. Акаике
658,7987 Крит. Шварца
664,2178 Крит. Хеннана-Куинна
660,9971 Уравнение регрессии имеет вид
???? = 8.32844 − 0.282803????
(1.77700) (0.163483) Здесь Y – спрос домохозяйств на картофель, X – цена на картофель Проверим значимость коэффициента ????2 и сделаем вывод, влияет ли цена товара на спрос на него и если влияет, то каким образом.
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
2
= 0,0865 Выберем уровень значимости ???? = 0,1 0,0865 < 0,1 => принимаем гипотезу Нс вероятностью 90%, те. коэффициент регрессии
????2 значим.
Упражнение 1.2. Оценка кривых Энгеля Кривые Энгеля отражают зависимость потребления определенного товара от дохода потребителя. Используйте данные файла data 1.1.
1. Выберите один из товаров из приведенного в упражнении 1.1 списка.
2. Оцените параметры уравнения регрессии
???? = ????
0
+ ????
1
???? + ???? где Y — спрос домохозяйств на выбранный товар, X — доход домохозяйства.
3. Проверьте значимость коэффициентов регрессии и сделайте вывод, влияет ли доход домохозяйства на спрос на выбранный товар и если влияет, то каким образом.
4. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
DPOTAT – Регрессоры const и INCOME – Ок Модель 2: МНК, использованы наблюдения 1-111 Зависимая переменная DPOTAT Коэффициент Ст. ошибка статистика значение const
5,30380 0,507469 10,45
<0,0001
***
INCOME
2,17313e-06 1,08459e-05 0,2004 0,8416 Среднее завис. перемен
5,351351 Ст. откл. завис. перем
4,705217 Сумма кв. остатков
2434,401 Ст. ошибка модели
4,725881 квадрат
0,000368 Исправ. квадрат
-0,008803
F(1, 109)
0,040146 Р-значение (F)
0,841569 Лог. правдоподобие
−328,8821 Крит. Акаике
661,7641 Крит. Шварца
667,1832 Крит. Хеннана-Куинна
663,9625 Уравнение регрессии имеет вид
???? = 5.30380 + 2.17313???? − 06????
(0.507469) (1.08459???? − 05) Здесь
???? — спрос домохозяйств на картофель, ???? доход домохозяйства Проверим значимость коэффициентов регрессии и сделаем вывод, влияет ли доход домохозяйства на спрос на картофель.
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
1
= 0,8416 < 0,1 при α = 0,1 => принимаем гипотезу
????
0
, те. коэффициент регрессии ????
1
не значим, значит доход домохозяйства не влияет на спрос на картофель.
1. Выберите один из товаров из приведенного в упражнении 1.1 списка.
2. Оцените параметры уравнения регрессии
???? = ????
0
+ ????
1
???? + ???? где Y — спрос домохозяйств на выбранный товар, X — доход домохозяйства.
3. Проверьте значимость коэффициентов регрессии и сделайте вывод, влияет ли доход домохозяйства на спрос на выбранный товар и если влияет, то каким образом.
4. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
DPOTAT – Регрессоры const и INCOME – Ок Модель 2: МНК, использованы наблюдения 1-111 Зависимая переменная DPOTAT Коэффициент Ст. ошибка статистика значение const
5,30380 0,507469 10,45
<0,0001
***
INCOME
2,17313e-06 1,08459e-05 0,2004 0,8416 Среднее завис. перемен
5,351351 Ст. откл. завис. перем
4,705217 Сумма кв. остатков
2434,401 Ст. ошибка модели
4,725881 квадрат
0,000368 Исправ. квадрат
-0,008803
F(1, 109)
0,040146 Р-значение (F)
0,841569 Лог. правдоподобие
−328,8821 Крит. Акаике
661,7641 Крит. Шварца
667,1832 Крит. Хеннана-Куинна
663,9625 Уравнение регрессии имеет вид
???? = 5.30380 + 2.17313???? − 06????
(0.507469) (1.08459???? − 05) Здесь
???? — спрос домохозяйств на картофель, ???? доход домохозяйства Проверим значимость коэффициентов регрессии и сделаем вывод, влияет ли доход домохозяйства на спрос на картофель.
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
1
= 0,8416 < 0,1 при α = 0,1 => принимаем гипотезу
????
0
, те. коэффициент регрессии ????
1
не значим, значит доход домохозяйства не влияет на спрос на картофель.
Упражнение 1.3. Оценка модели САРМ по американским данным В файле data 1.3 представлены ряды данных (в формате Excel) о месячных доходностях акций компаний США, список которых приведен ниже, с января 1978 г. по декабрь 1987 г. Данные были собраны Э.Берндтом и заимствованы с сайта издательства его книги «Юнити» www.unity-dana.ru (см. таблицу. Переменные Компания Переменная в файле
Mobil
MOBIL
Texaco
TEXACO
International Business Machines IBM
Digital Equipment Company
DEC
Data General
DATGEN
Consolidated Edison
CONED
Public Service of New Hampshire PSNH
Weyerhauser
WEYER
Boise
BOISE
Motorola
MOTOR
Tandy
TANDY
Pan American Airways
PANAM
Delta
DELTA
Continental Illinois
CONTIL
Citicorp
CITCRP
Gerber
GERBER
General Mills
GENMIL Приведены также данные о доходности общего рыночного портфеля ценных бумаг переменная MARKET) и доходности безрискового актива — дневных казначейских билетов США (переменная RKFREE).
1. Используя модель САРМ
????
????
− ????
????
= ????
1????
+ ????
2????
(????
????
− ????
????
) + ????, где ???????? доходности й ценной бумаги (j = Mobil, ..., General Mills) и доходность безрискового актива ????
????
, а ????
????
доходность общего рыночного портфеля ценных бумаг, оцените методом наименьших квадратов параметры ????
1????
,
????
2????
модели САРМ для выбранной вами й ценной бумаги.
2. Проверьте значимость коэффициентов ????
1????
,
????
2????
. Сделайте вывод, влияет ли доходность общего рыночного портфеля ценных бумаг на доходность й ценной бумаги.
3. Дайте экономическую интерпретацию полученным результатам. Методические рекомендации по выполнению упражнения 1.3.
1. Предположим, вы выбрали для исследования ценную бумагу Mobil. В этом случае ????
????
= MOBIL,
????
????
= RKFREE,
????
????
= MARKET.
2. Cоздайте в Gretl зависимую переменную Y и с помощью строки консоли заполните ее, заполнив строку в консоли выражением Y = Mobil – RKFREE и нажав Enter.
3. Создайте в Gretl независимую переменную X и с помощью строки консоли заполните ее, заполнив строку в консоли выражением X = MARKET - RKFREE и нажав Enter.
4. Оцените параметры уравнения регрессии, проверьте значимость коэффициента ????
2????
. Если коэффициент ????
2????
является значимым, те. доходность й ценной бумаги зависит от доходности общего рыночного портфеля ценных бумаг.
5. Оформите отчет по результатам упражнения в файле.
Mobil
MOBIL
Texaco
TEXACO
International Business Machines IBM
Digital Equipment Company
DEC
Data General
DATGEN
Consolidated Edison
CONED
Public Service of New Hampshire PSNH
Weyerhauser
WEYER
Boise
BOISE
Motorola
MOTOR
Tandy
TANDY
Pan American Airways
PANAM
Delta
DELTA
Continental Illinois
CONTIL
Citicorp
CITCRP
Gerber
GERBER
General Mills
GENMIL Приведены также данные о доходности общего рыночного портфеля ценных бумаг переменная MARKET) и доходности безрискового актива — дневных казначейских билетов США (переменная RKFREE).
1. Используя модель САРМ
????
????
− ????
????
= ????
1????
+ ????
2????
(????
????
− ????
????
) + ????, где ???????? доходности й ценной бумаги (j = Mobil, ..., General Mills) и доходность безрискового актива ????
????
, а ????
????
доходность общего рыночного портфеля ценных бумаг, оцените методом наименьших квадратов параметры ????
1????
,
????
2????
модели САРМ для выбранной вами й ценной бумаги.
2. Проверьте значимость коэффициентов ????
1????
,
????
2????
. Сделайте вывод, влияет ли доходность общего рыночного портфеля ценных бумаг на доходность й ценной бумаги.
3. Дайте экономическую интерпретацию полученным результатам. Методические рекомендации по выполнению упражнения 1.3.
1. Предположим, вы выбрали для исследования ценную бумагу Mobil. В этом случае ????
????
= MOBIL,
????
????
= RKFREE,
????
????
= MARKET.
2. Cоздайте в Gretl зависимую переменную Y и с помощью строки консоли заполните ее, заполнив строку в консоли выражением Y = Mobil – RKFREE и нажав Enter.
3. Создайте в Gretl независимую переменную X и с помощью строки консоли заполните ее, заполнив строку в консоли выражением X = MARKET - RKFREE и нажав Enter.
4. Оцените параметры уравнения регрессии, проверьте значимость коэффициента ????
2????
. Если коэффициент ????
2????
является значимым, те. доходность й ценной бумаги зависит от доходности общего рыночного портфеля ценных бумаг.
5. Оформите отчет по результатам упражнения в файле.
Для исследования возьмем ценную бумагу BOISE, тогда rj = BOISE, rf = RKFREE, rm = MARKET
????
????
− ????
????
= ????
1????
+ ????
2????
(
????
????
− ????
????
)
+ Создадим новые переменные
Y = BOISE – RKFREE
X = MARKET – RKFRE Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const и X – Ок Модель 1: МНК, использованы наблюдения 1-120 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
0,00314193 0,00681161 0,4613 0,6455
X
0,935888 0,0991607 9,438
<0,0001
*** Среднее завис. перемен
0,009836 Ст. откл. завис. перем
0,097896 Сумма кв. остатков
0,649872 Ст. ошибка модели
0,074212 квадрат
0,430165 Исправ. квадрат
0,425336
F(1, 118)
89,07766 Р-значение (F)
4,29e-16 Лог. правдоподобие
142,8357 Крит. Акаике
−281,6714 Крит. Шварца
−276,0964 Крит. Хеннана-Куинна
−279,4074 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
2????
< 0,0001 => принимаем гипотезу
????
1
, те. коэффициент регрессии ????
2????
значим с вероятностью 99,9%, значит доходность й ценной бумаги зависит от доходности общего рыночного портфеля ценных бумаг. значение у коэффициента
????
1????
> ????, даже при уровне значимости ???? = 0,1, что говорит о незначимости коэффициента, то есть мы можем убрать константу из модели.
????
????
− ????
????
= ????
1????
+ ????
2????
(
????
????
− ????
????
)
+ Создадим новые переменные
Y = BOISE – RKFREE
X = MARKET – RKFRE Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const и X – Ок Модель 1: МНК, использованы наблюдения 1-120 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
0,00314193 0,00681161 0,4613 0,6455
X
0,935888 0,0991607 9,438
<0,0001
*** Среднее завис. перемен
0,009836 Ст. откл. завис. перем
0,097896 Сумма кв. остатков
0,649872 Ст. ошибка модели
0,074212 квадрат
0,430165 Исправ. квадрат
0,425336
F(1, 118)
89,07766 Р-значение (F)
4,29e-16 Лог. правдоподобие
142,8357 Крит. Акаике
−281,6714 Крит. Шварца
−276,0964 Крит. Хеннана-Куинна
−279,4074 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
2????
< 0,0001 => принимаем гипотезу
????
1
, те. коэффициент регрессии ????
2????
значим с вероятностью 99,9%, значит доходность й ценной бумаги зависит от доходности общего рыночного портфеля ценных бумаг. значение у коэффициента
????
1????
> ????, даже при уровне значимости ???? = 0,1, что говорит о незначимости коэффициента, то есть мы можем убрать константу из модели.
Модель 2: МНК, использованы наблюдения 1-120 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение
X
0,940651 0,0982948 9,570
<0,0001
*** Среднее завис. перемен
0,009836 Ст. откл. завис. перем
0,097896 Сумма кв. остатков
0,651044 Ст. ошибка модели
0,073966 Нецентрированный R- квадрат
0,434891 Центрированный R- квадрат
0,429138
F(1, 119)
91,57892 Р-значение (F)
1,96e-16 Лог. правдоподобие
142,7276 Крит. Акаике
−283,4552 Крит. Шварца
−280,6677 Крит. Хеннана-Куинна
−282,3232 Делаем вывод, что доходность й ценной бумаги (BOISE) зависит от доходности общего рыночного портфеля ценных бумага именно с ростом доходности общего рыночного портфеля ценных бумаг на 1 единицу, доходность ценной бумаги Gerber увеличивается на
0,94065 единицы.
X
0,940651 0,0982948 9,570
<0,0001
*** Среднее завис. перемен
0,009836 Ст. откл. завис. перем
0,097896 Сумма кв. остатков
0,651044 Ст. ошибка модели
0,073966 Нецентрированный R- квадрат
0,434891 Центрированный R- квадрат
0,429138
F(1, 119)
91,57892 Р-значение (F)
1,96e-16 Лог. правдоподобие
142,7276 Крит. Акаике
−283,4552 Крит. Шварца
−280,6677 Крит. Хеннана-Куинна
−282,3232 Делаем вывод, что доходность й ценной бумаги (BOISE) зависит от доходности общего рыночного портфеля ценных бумага именно с ростом доходности общего рыночного портфеля ценных бумаг на 1 единицу, доходность ценной бумаги Gerber увеличивается на
0,94065 единицы.
Упражнение 1.4. Оценка кривой Филлипса Кривая Филлипса отражает взаимосвязь инфляции Y и безработицы X следующим образом
???? = ????
0
+ ????
1 Согласно эмпирическим расчетам дог. при увеличении уровня безработицы уровень инфляции снижался, а после 1970 г, эта зависимость перестала иметь место. Проверьте этот факт, оценив параметры уравнения регрессии ???? = ????
0
+ ????
1 1
????
+ ???? по двум наборам данных. В файле data 1.4.1 представлены ряды данных об увеличении почасовой заработной платы
(Y) и уровне безработицы (X) для США в 1958 —1969 гг. (в формате Excel). Обе переменные измерены в процентах. В файле data 1.4.2 представлены ряды квартальных данных по индексу потребительских цени уровню безработицы (X) в России за период
2000—2007 г.г. (в формате Excel). Обе переменные измерены в процентах.
1. Оцените по этим данным (сначала из файла data 1.4.1, затем data 1.4.2) параметры уравнения регрессии
???? = ????
0
+ ????
1 1
????
+ ????
2. Проверьте значимость коэффициента ????
1 3. Дайте экономическую интерпретацию полученному результату.
4. Снижался ли согласно полученному результату уровень инфляции при увеличении уровня безработицы Методические рекомендации по выполнению упражнения 1.4. Используйте сначала данные файла data 1.4.1, а затем data 1.4.2. Создайте в Gretl независимую переменную X_1 и с помощью строки консоли заполните ее, заполнив строку в консоли выражением X_1 = 1/X и нажав Enter. Оцените параметры уравнения регрессии ???? = ????
0
+ ????
1
????_1 + ????. Если р для статистики коэффициента ????
1
меньше выбранного вами уровня значимости, например 0,05, то коэффициент ????
1
является значимым. Сравните результаты, полученные в первом и втором случаях (значимость коэффициентов, их знаки) для США и России. Оформите отчет по результатам упражнения в файле. Используем сначала данные файла data 1.4.1 Создадим новую переменную ????_1 Оценим параметры уравнения регрессии ???? = ????
0
+ ????
1 1
????
+ ???? Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y –
Регрессоры const и X1 – Ок
???? = ????
0
+ ????
1 Согласно эмпирическим расчетам дог. при увеличении уровня безработицы уровень инфляции снижался, а после 1970 г, эта зависимость перестала иметь место. Проверьте этот факт, оценив параметры уравнения регрессии ???? = ????
0
+ ????
1 1
????
+ ???? по двум наборам данных. В файле data 1.4.1 представлены ряды данных об увеличении почасовой заработной платы
(Y) и уровне безработицы (X) для США в 1958 —1969 гг. (в формате Excel). Обе переменные измерены в процентах. В файле data 1.4.2 представлены ряды квартальных данных по индексу потребительских цени уровню безработицы (X) в России за период
2000—2007 г.г. (в формате Excel). Обе переменные измерены в процентах.
1. Оцените по этим данным (сначала из файла data 1.4.1, затем data 1.4.2) параметры уравнения регрессии
???? = ????
0
+ ????
1 1
????
+ ????
2. Проверьте значимость коэффициента ????
1 3. Дайте экономическую интерпретацию полученному результату.
4. Снижался ли согласно полученному результату уровень инфляции при увеличении уровня безработицы Методические рекомендации по выполнению упражнения 1.4. Используйте сначала данные файла data 1.4.1, а затем data 1.4.2. Создайте в Gretl независимую переменную X_1 и с помощью строки консоли заполните ее, заполнив строку в консоли выражением X_1 = 1/X и нажав Enter. Оцените параметры уравнения регрессии ???? = ????
0
+ ????
1
????_1 + ????. Если р для статистики коэффициента ????
1
меньше выбранного вами уровня значимости, например 0,05, то коэффициент ????
1
является значимым. Сравните результаты, полученные в первом и втором случаях (значимость коэффициентов, их знаки) для США и России. Оформите отчет по результатам упражнения в файле. Используем сначала данные файла data 1.4.1 Создадим новую переменную ????_1 Оценим параметры уравнения регрессии ???? = ????
0
+ ????
1 1
????
+ ???? Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y –
Регрессоры const и X1 – Ок
Модель 1: МНК, использованы наблюдения 1958-1969 (T = 12) Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
−0,259437 1,00864
−0,2572 0,8022
X_1 20,5879 4,67948 4,400 0,0013
*** Среднее завис. перемен
4,066667 Ст. откл. завис. перем
1,271601 Сумма кв. остатков
6,058842 Ст. ошибка модели
0,778386 квадрат
0,659360 Исправ. квадрат
0,625296
F(1, 10)
19,35654 Р-значение (F)
0,001336 Лог. правдоподобие
−12,92694 Крит. Акаике
29,85387 Крит. Шварца
30,82368 Крит. Хеннана-Куинна
29,49481 параметр rho
0,513773 Стат. Дарбина-Уотсона
0,639368 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????0 > 0,1 => принимаем гипотезу Н, те. коэффициент регрессии
????0 незначим, коэффициент ????1 < ???? = 0,01, значит принимаем гипотезу Нс вероятностью
99%, те. коэффициент значим. Так как коэффициент const незначим, уберем его из модели Модель 2: МНК, использованы наблюдения 1958-1969 (T = 12) Зависимая переменная Y Коэффициент Ст. ошибка статистика значение
X_1 19,4145 0,997243 19,47
<0,0001
*** Среднее завис. перемен
4,066667 Ст. откл. завис. перем
1,271601 Сумма кв. остатков
6,098927 Ст. ошибка модели
0,744613 Нецентрированный R- квадрат
0,971796 Центрированный R- квадрат
0,657107
F(1, 11)
379,0096 Р-значение (F)
7,13e-10 Лог. правдоподобие
−12,96650 Крит. Акаике
27,93300 Крит. Шварца
28,41791 Крит. Хеннана-Куинна
27,75347 параметр rho
0,556201 Стат. Дарбина-Уотсона
0,615518 Уравнение регрессии имеет вид
???? = 19,4145 1
x
+
????.
(0,997243) Коэффициент регрессии ????1 остался значим. Таким образом, получаем вывод при увеличении Хна единицу, почасовая заработная плата Y увеличится на 19,4145. Тогда при увеличении уровня безработицы Хна, почасовая заработная плата уменьшится (т.к. Х в знаменателе) на
19,4145
x
%
−0,259437 1,00864
−0,2572 0,8022
X_1 20,5879 4,67948 4,400 0,0013
*** Среднее завис. перемен
4,066667 Ст. откл. завис. перем
1,271601 Сумма кв. остатков
6,058842 Ст. ошибка модели
0,778386 квадрат
0,659360 Исправ. квадрат
0,625296
F(1, 10)
19,35654 Р-значение (F)
0,001336 Лог. правдоподобие
−12,92694 Крит. Акаике
29,85387 Крит. Шварца
30,82368 Крит. Хеннана-Куинна
29,49481 параметр rho
0,513773 Стат. Дарбина-Уотсона
0,639368 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????0 > 0,1 => принимаем гипотезу Н, те. коэффициент регрессии
????0 незначим, коэффициент ????1 < ???? = 0,01, значит принимаем гипотезу Нс вероятностью
99%, те. коэффициент значим. Так как коэффициент const незначим, уберем его из модели Модель 2: МНК, использованы наблюдения 1958-1969 (T = 12) Зависимая переменная Y Коэффициент Ст. ошибка статистика значение
X_1 19,4145 0,997243 19,47
<0,0001
*** Среднее завис. перемен
4,066667 Ст. откл. завис. перем
1,271601 Сумма кв. остатков
6,098927 Ст. ошибка модели
0,744613 Нецентрированный R- квадрат
0,971796 Центрированный R- квадрат
0,657107
F(1, 11)
379,0096 Р-значение (F)
7,13e-10 Лог. правдоподобие
−12,96650 Крит. Акаике
27,93300 Крит. Шварца
28,41791 Крит. Хеннана-Куинна
27,75347 параметр rho
0,556201 Стат. Дарбина-Уотсона
0,615518 Уравнение регрессии имеет вид
???? = 19,4145 1
x
+
????.
(0,997243) Коэффициент регрессии ????1 остался значим. Таким образом, получаем вывод при увеличении Хна единицу, почасовая заработная плата Y увеличится на 19,4145. Тогда при увеличении уровня безработицы Хна, почасовая заработная плата уменьшится (т.к. Х в знаменателе) на
19,4145
x
%
Проделаем тоже самое, используя данные файла data 1.4.2 Создадим новую переменную Х Оценим параметры уравнения регрессии
???? = ????
0
+ ????
1 1
????
+ Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const и X1 – Ок Модель 1: МНК, использованы наблюдения 1-29 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
111,948 1,98500 56,40
<0,0001
***
X_1
−71,4192 16,2827
−4,386 0,0002
*** Среднее завис. перемен
103,3138 Ст. откл. завис. перем
1,766903 Сумма кв. остатков
51,04351 Ст. ошибка модели
1,374955 квадрат
0,416075 Исправ. квадрат
0,394448
F(1, 27)
19,23881 Р-значение (F)
0,000158 Лог. правдоподобие
−49,34727 Крит. Акаике
102,6945 Крит. Шварца
105,4291 Крит. Хеннана-Куинна
103,5510 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
0
< 0,0001 => принимаем гипотезу Нс вероятностью. 99.9% , значение у коэффициента
????
1
< 0,01=> принимаем гипотезу Нс вероятностью. 99%, те. оба наших коэффициентов регрессии ????
0
и
????
1
значимы. Уравнение регрессии имеет вид
???? = 111.948 − 71.4192 1
????
(1,98500) (16,2827) Значит при увеличении Хна единицу, Y уменьшится на 71,4192%. То есть при увеличении уровня безработицы Хна, почасовая заработная плата увеличится (т.к. Х в знаменателе) на
71,4192
x
% Подведем итог До 1970 года (файл 4.1.1) при увеличении уровня безработицы почасовая заработная плата уменьшалась, а после 1970 года, наоборот при увеличении уровня безработицы почасовая заработная плата увеличивалась, что подтверждает представленные эмперические расчеты
???? = ????
0
+ ????
1 1
????
+ Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const и X1 – Ок Модель 1: МНК, использованы наблюдения 1-29 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
111,948 1,98500 56,40
<0,0001
***
X_1
−71,4192 16,2827
−4,386 0,0002
*** Среднее завис. перемен
103,3138 Ст. откл. завис. перем
1,766903 Сумма кв. остатков
51,04351 Ст. ошибка модели
1,374955 квадрат
0,416075 Исправ. квадрат
0,394448
F(1, 27)
19,23881 Р-значение (F)
0,000158 Лог. правдоподобие
−49,34727 Крит. Акаике
102,6945 Крит. Шварца
105,4291 Крит. Хеннана-Куинна
103,5510 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
0
< 0,0001 => принимаем гипотезу Нс вероятностью. 99.9% , значение у коэффициента
????
1
< 0,01=> принимаем гипотезу Нс вероятностью. 99%, те. оба наших коэффициентов регрессии ????
0
и
????
1
значимы. Уравнение регрессии имеет вид
???? = 111.948 − 71.4192 1
????
(1,98500) (16,2827) Значит при увеличении Хна единицу, Y уменьшится на 71,4192%. То есть при увеличении уровня безработицы Хна, почасовая заработная плата увеличится (т.к. Х в знаменателе) на
71,4192
x
% Подведем итог До 1970 года (файл 4.1.1) при увеличении уровня безработицы почасовая заработная плата уменьшалась, а после 1970 года, наоборот при увеличении уровня безработицы почасовая заработная плата увеличивалась, что подтверждает представленные эмперические расчеты
Упражнение 2.1. Зависимость цены спаржи от ее характеристик В файле data 2.1 (в формате Excel) представлены данные 200 наблюдений по четырем переменным, собранные Э.Берндтом и заимствованые с сайта издательства его книги
«Юни-ти» www.unity-dana.ru. Переменные
PRICE — относительная цена пучка спаржи
GREEN — длина зеленой части спаржи в сотых дюйма
NOSTALKS — количество стеблей спаржи водном пучке
DISPERSE - разброс в размере стеблей (межквартильный коэффициент.
1. Оцените параметры уравнения множественной регрессии
PRICE = ????
0
+ ????
1
GREEN + ????
2
NOSTALKS + ????
3
DISPERSE + ????.
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Дайте интерпретацию полученным результатам.
4. Оформите отчет по результатам упражнения в файле. Оценим параметры уравнения множественной регрессии
PRICE = ????
0
+ ????
1
GREEN + ????
2
NOSTALKS + ????
3
DISPERSE + Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
PRICE – Регрессоры const, GREEN, NOSTALKS, DISPERSE – Ок Модель 1: МНК, использованы наблюдения 1-200 Зависимая переменная PRICE Коэффициент Ст. ошибка статистика значение const
40,7613 5,32784 7,651
<0,0001
***
GREEN
0,137598 0,00709935 19,38
<0,0001
***
NOSTALKS
−1,35726 0,150822
−8,999
<0,0001
***
DISPERSE
−0,345283 0,129656
−2,663 0,0084
*** Среднее завис. перемен
90,09500 Ст. откл. завис. перем
29,47439 Сумма кв. остатков
47230,75 Ст. ошибка модели
15,52331 квадрат
0,726799 Исправ. квадрат
0,722617
F(3, 196)
173,8070 Р-значение (F)
5,71e-55 Лог. правдоподобие
−830,2360 Крит. Акаике
1668,472 Крит. Шварца
1681,665 Крит. Хеннана-Куинна
1673,811 Проверим коэффициенты на значимость
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p < 0,01, а значит принимается гипотеза
????1 с вероятностью
99%, те. уравнение значимо в целом (хотя бы один из коэффициентов уравнения регрессии отличается от нуля. Проверим коэффициенты регрессии на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Заметим, что все коэффициенты значимы. значение у коэффициентов ,
????
0
,
????
1
,
????
2
< 0,0001
=> принимаем гипотезу Нс вероятностью. 99.9% , значение у коэффициента
????
3
< 0,01=> принимаем гипотезу Нс вероятностью. 99%.
«Юни-ти» www.unity-dana.ru. Переменные
PRICE — относительная цена пучка спаржи
GREEN — длина зеленой части спаржи в сотых дюйма
NOSTALKS — количество стеблей спаржи водном пучке
DISPERSE - разброс в размере стеблей (межквартильный коэффициент.
1. Оцените параметры уравнения множественной регрессии
PRICE = ????
0
+ ????
1
GREEN + ????
2
NOSTALKS + ????
3
DISPERSE + ????.
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Дайте интерпретацию полученным результатам.
4. Оформите отчет по результатам упражнения в файле. Оценим параметры уравнения множественной регрессии
PRICE = ????
0
+ ????
1
GREEN + ????
2
NOSTALKS + ????
3
DISPERSE + Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
PRICE – Регрессоры const, GREEN, NOSTALKS, DISPERSE – Ок Модель 1: МНК, использованы наблюдения 1-200 Зависимая переменная PRICE Коэффициент Ст. ошибка статистика значение const
40,7613 5,32784 7,651
<0,0001
***
GREEN
0,137598 0,00709935 19,38
<0,0001
***
NOSTALKS
−1,35726 0,150822
−8,999
<0,0001
***
DISPERSE
−0,345283 0,129656
−2,663 0,0084
*** Среднее завис. перемен
90,09500 Ст. откл. завис. перем
29,47439 Сумма кв. остатков
47230,75 Ст. ошибка модели
15,52331 квадрат
0,726799 Исправ. квадрат
0,722617
F(3, 196)
173,8070 Р-значение (F)
5,71e-55 Лог. правдоподобие
−830,2360 Крит. Акаике
1668,472 Крит. Шварца
1681,665 Крит. Хеннана-Куинна
1673,811 Проверим коэффициенты на значимость
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p < 0,01, а значит принимается гипотеза
????1 с вероятностью
99%, те. уравнение значимо в целом (хотя бы один из коэффициентов уравнения регрессии отличается от нуля. Проверим коэффициенты регрессии на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Заметим, что все коэффициенты значимы. значение у коэффициентов ,
????
0
,
????
1
,
????
2
< 0,0001
=> принимаем гипотезу Нс вероятностью. 99.9% , значение у коэффициента
????
3
< 0,01=> принимаем гипотезу Нс вероятностью. 99%.
Уравнение регрессии принимает вид
PRICE = 40,7613 0,137598
???????????????????? − 1,35726NOSTALKS − 0,345283DISPERSE
(5,32784) (0,00709935) (0,150822) (0,129656) Заметим, что коэффициент детерминации ????
2
=0,726799, исправленный ????
2
=0,722617, что говорит о хорошем качестве модели (зависимая переменная объясняется независимыми примерно на 72.2%). Значит, при увеличении длины зеленой части спаржи на 1 сотую дюйма, относительная цена пучка спаржи увеличится на 0,137598 единицы. При увеличении количества стеблей спаржи водном пучке на 1 единицу, относительная цена пучка спаржи уменьшается на
1,35726 единицы. При увеличении разбросав размере стеблей (межквартильный коэффициент) на 1 единицу, относительная цена пучка спаржи уменьшится на 0,345283.
PRICE = 40,7613 0,137598
???????????????????? − 1,35726NOSTALKS − 0,345283DISPERSE
(5,32784) (0,00709935) (0,150822) (0,129656) Заметим, что коэффициент детерминации ????
2
=0,726799, исправленный ????
2
=0,722617, что говорит о хорошем качестве модели (зависимая переменная объясняется независимыми примерно на 72.2%). Значит, при увеличении длины зеленой части спаржи на 1 сотую дюйма, относительная цена пучка спаржи увеличится на 0,137598 единицы. При увеличении количества стеблей спаржи водном пучке на 1 единицу, относительная цена пучка спаржи уменьшается на
1,35726 единицы. При увеличении разбросав размере стеблей (межквартильный коэффициент) на 1 единицу, относительная цена пучка спаржи уменьшится на 0,345283.
Упражнение 2.2. Зависимость заработной платы от способностей индивида, его образования и образования его родителей в США (линейная модель В период с 1979 г. по 2002 г. американские ученые обследовали 3003 юношей и 3108 девушек в возрасте отлет до 21 года (в 1979 г. В массиве данных NLSY 1979 — the
National Longitudinal Survey of Youth — были собраны сведения об их семьях, образовании, способностях, доходах и т.д. В файле data 2.2 (в формате Excel), позаимствованном с сайта http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках. Переменные
EARNINGS — почасовая заработная плата индивида в 2002 г,
S — количество лет обучения кг возраст индивида в 2002 г,
SM — количество лет обучения матери индивида,
SF — количество лет обучения отца индивида,
ASVAB02 — результаты теста по арифметике,
ASVAB03 — результаты теста по правописанию,
ASVAB04 — результаты теста по пониманию прочитанного материала, ASVAB05 — результаты теста на скорость выполнения численных операций, результаты теста на скорость восприятия прочитанного материала,
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 — обобщенная переменная, характеризующая способности школьника, EXPERIENCE — опыт работы кг число родных братьев и сестер индивида.
2.2.1. Зависимость длительности образования от способностей и длительности обучения родителей
1. С помощью данных файла data 2.2 оцените параметры уравнения множественной регрессии
???? = ????
0
+ ????
1
???????????????????????? + ????
2
???????? + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Исходя из полученных результатов сделайте вывод, какие факторы влияют на длительность обучения индивида. Дайте интерпретацию полученным результатам.
4. Оформите отчет по результатам упражнения в файле.
2.2.2. Зависимость заработной платы от способностей и образования индивида
1. С помощью данных файла data 2.2 оцените параметры уравнения множественной регрессии
EARN = ????
0
+ ????
1
???? + ????
2
???????????????????????? + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Исходя из полученных результатов сделайте вывод, какие факторы влияют на заработную плату индивида. Дайте интерпретацию полученным результатам.
4. Проверьте адекватность регрессии с помощью р для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
5. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
6. Оформите отчет по результатам упражнения в файле. Добавим новую переменную
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 Сначала оценим параметры уравнения множественной регрессии
???? = ????
0
+ ????
1
???????????????????????? + ????
2
???????? + ????
National Longitudinal Survey of Youth — были собраны сведения об их семьях, образовании, способностях, доходах и т.д. В файле data 2.2 (в формате Excel), позаимствованном с сайта http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках. Переменные
EARNINGS — почасовая заработная плата индивида в 2002 г,
S — количество лет обучения кг возраст индивида в 2002 г,
SM — количество лет обучения матери индивида,
SF — количество лет обучения отца индивида,
ASVAB02 — результаты теста по арифметике,
ASVAB03 — результаты теста по правописанию,
ASVAB04 — результаты теста по пониманию прочитанного материала, ASVAB05 — результаты теста на скорость выполнения численных операций, результаты теста на скорость восприятия прочитанного материала,
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 — обобщенная переменная, характеризующая способности школьника, EXPERIENCE — опыт работы кг число родных братьев и сестер индивида.
2.2.1. Зависимость длительности образования от способностей и длительности обучения родителей
1. С помощью данных файла data 2.2 оцените параметры уравнения множественной регрессии
???? = ????
0
+ ????
1
???????????????????????? + ????
2
???????? + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Исходя из полученных результатов сделайте вывод, какие факторы влияют на длительность обучения индивида. Дайте интерпретацию полученным результатам.
4. Оформите отчет по результатам упражнения в файле.
2.2.2. Зависимость заработной платы от способностей и образования индивида
1. С помощью данных файла data 2.2 оцените параметры уравнения множественной регрессии
EARN = ????
0
+ ????
1
???? + ????
2
???????????????????????? + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Исходя из полученных результатов сделайте вывод, какие факторы влияют на заработную плату индивида. Дайте интерпретацию полученным результатам.
4. Проверьте адекватность регрессии с помощью р для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
5. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
6. Оформите отчет по результатам упражнения в файле. Добавим новую переменную
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 Сначала оценим параметры уравнения множественной регрессии
???? = ????
0
+ ????
1
???????????????????????? + ????
2
???????? + ????
Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая S –
Регрессоры const, ASVABC и SM – Ок Модель 1: МНК, использованы наблюдения 1-540 Зависимая переменная S Коэффициент Ст. ошибка статистика значение const
3,91490 0,602695 6,496
<0,0001
***
ASVABC
0,140269 0,0115628 12,13
<0,0001
***
SM
0,227710 0,0388214 5,866
<0,0001
*** Среднее завис. перемен
13,67222 Ст. откл. завис. перем
2,555863 Сумма кв. остатков
2346,569 Ст. ошибка модели
2,090401 квадрат
0,333547 Исправ. квадрат
0,331065
F(2, 537)
134,3793 Р-значение (F)
4,81e-48 Лог. правдоподобие
−1162,895 Крит. Акаике
2331,789 Крит. Шварца
2344,664 Крит. Хеннана-Куинна
2336,825 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 4,81e-48< 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу ????
1
с вероятностью. 99.9%. Таким образом, при увеличении обобщенной переменной, характеризующей способности школьника, на 1 единицу, количество лет его обучения увеличивается на 0,14 года. При увеличении числа лет матери индивида на 1 год, Количество лет его обучения увеличивается на 0,22771 года. При этом заметим, что ????
2
= 0,333547, исправленный
????
2
= 0,331065, что говорит о достаточно плохом качестве модели, зависимая переменная объясняется независимыми только на 33%. Теперь с помощью данных файла data 2.2 оценим параметры уравнения множественной регрессии
EARNINGS = ????
0
+ ????
1
???? + ????
2
???????????????????????? + ???? Опять добавим новую переменную
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
EARNINGS – Регрессоры const, ASVABC и S – Ок Модель 2: МНК, использованы наблюдения 1-540 Зависимая переменная EARNINGS Коэффициент Ст. ошибка статистика значение const
−21,6029 3,73273
−5,787
<0,0001
***
ASVABC
0,339366 0,0801622 4,233
<0,0001
***
S
1,76657 0,262150 6,739
<0,0001
***
Регрессоры const, ASVABC и SM – Ок Модель 1: МНК, использованы наблюдения 1-540 Зависимая переменная S Коэффициент Ст. ошибка статистика значение const
3,91490 0,602695 6,496
<0,0001
***
ASVABC
0,140269 0,0115628 12,13
<0,0001
***
SM
0,227710 0,0388214 5,866
<0,0001
*** Среднее завис. перемен
13,67222 Ст. откл. завис. перем
2,555863 Сумма кв. остатков
2346,569 Ст. ошибка модели
2,090401 квадрат
0,333547 Исправ. квадрат
0,331065
F(2, 537)
134,3793 Р-значение (F)
4,81e-48 Лог. правдоподобие
−1162,895 Крит. Акаике
2331,789 Крит. Шварца
2344,664 Крит. Хеннана-Куинна
2336,825 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 4,81e-48< 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу ????
1
с вероятностью. 99.9%. Таким образом, при увеличении обобщенной переменной, характеризующей способности школьника, на 1 единицу, количество лет его обучения увеличивается на 0,14 года. При увеличении числа лет матери индивида на 1 год, Количество лет его обучения увеличивается на 0,22771 года. При этом заметим, что ????
2
= 0,333547, исправленный
????
2
= 0,331065, что говорит о достаточно плохом качестве модели, зависимая переменная объясняется независимыми только на 33%. Теперь с помощью данных файла data 2.2 оценим параметры уравнения множественной регрессии
EARNINGS = ????
0
+ ????
1
???? + ????
2
???????????????????????? + ???? Опять добавим новую переменную
ASVABC = 0,5ASVAB02 + 0,25ASVAB03 + 0,25ASVAB04 Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая
EARNINGS – Регрессоры const, ASVABC и S – Ок Модель 2: МНК, использованы наблюдения 1-540 Зависимая переменная EARNINGS Коэффициент Ст. ошибка статистика значение const
−21,6029 3,73273
−5,787
<0,0001
***
ASVABC
0,339366 0,0801622 4,233
<0,0001
***
S
1,76657 0,262150 6,739
<0,0001
***
Среднее завис. перемен
19,71924 Ст. откл. завис. перем
14,60151 Сумма кв. остатков
92146,36 Ст. ошибка модели
13,09942 квадрат
0,198148 Исправ. квадрат
0,195162
F(2, 537)
66,34997 Р-значение (F)
1,78e-26 Лог. правдоподобие
−2153,909 Крит. Акаике
4313,818 Крит. Шварца
4326,693 Крит. Хеннана-Куинна
4318,854 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 1,78e-26 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%. Таким образом, при увеличении количества лет обучения, почасовая заработная плата индивида увеличивается 1,76657 единиц. При увеличении обобщенной переменной, характеризующей способности школьника, на 1 единицу, почасовая заработная плата индивида увеличивается 0,339 единиц. При этом заметим, что ????
2
= 0,198148, исправленный
????
2
= 0,195162, что говорит о плохом качестве модели, зависимая переменная объясняется независимыми лишь на 19,8%.
19,71924 Ст. откл. завис. перем
14,60151 Сумма кв. остатков
92146,36 Ст. ошибка модели
13,09942 квадрат
0,198148 Исправ. квадрат
0,195162
F(2, 537)
66,34997 Р-значение (F)
1,78e-26 Лог. правдоподобие
−2153,909 Крит. Акаике
4313,818 Крит. Шварца
4326,693 Крит. Хеннана-Куинна
4318,854 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 1,78e-26 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%. Таким образом, при увеличении количества лет обучения, почасовая заработная плата индивида увеличивается 1,76657 единиц. При увеличении обобщенной переменной, характеризующей способности школьника, на 1 единицу, почасовая заработная плата индивида увеличивается 0,339 единиц. При этом заметим, что ????
2
= 0,198148, исправленный
????
2
= 0,195162, что говорит о плохом качестве модели, зависимая переменная объясняется независимыми лишь на 19,8%.
Упражнение 2.3. Зависимость потребления основных видов товаров от их цени доходов домохозяйств поданным В файле data 2.3 (в формате Excel) содержатся данные о расходах российских домохозяйств на различные виды продовольственных товаров. Эти данные позаимствованы из 14 раунда опроса RLMS (Russian Longitudinal Monitoring Survey). Вопросе приняло участие свыше
10000 человек. Информация, собранная в RLMS, касается размеров, источников и структуры доходов и расходов домохозяйств и индивидуумов, занятости, распределения времени, уровня образования, состояния здоровья и других характеристик (свыше 500 переменных. Переменные jredid_h — номер семьи в 14 волне, psu — первичная единица отбора (1 — Санкт-Петербург, 2 — Москва, 3 — Московская область, ..., 38— Амурская область, status — тип населенного пункта (1 — областной центр, 2 город, 3 — поселок городского типа, 4 — село, popul — численность населения вместе проживания семьи, nfm — количество членов семьи в 2005 г, buywhbr_a — ответ на вопрос Ваша семья покупала за последние 7 дней белый хлеб да, 2 — нет, buywhbr_b — количество белого хлеба, купленного семьей за последние 7 дней (в кг, buywhbr_c — стоимость белого хлеба, купленного семьей за последние 7 дней (в руб, buymacar_a — ответ на вопрос Ваша семья покупала за последние 7 дней макаронные изделия (да, 2 — нет, buymacar_b — количество макаронных изделий, купленных семьей за последние 7 дней (в кг, buymacar_c — стоимость макаронных изделий, купленных семьей за последние 7 дней (в руб, buypotat_a — ответ на вопрос Ваша семья покупала за последние 7 дней картофель (1
— да, 2 — нет, buypotat_b — количество картофеля, купленного семьей за последние 7 дней (в кг, buypotat_c — стоимость картофеля, купленного семьей за последние 7 дней (в руб, buycanmeat_a — ответ на вопрос Ваша семья покупала за последние 7 дней мясные консервы (да, 2 — нет, buycanmeat_b — количество мясных консервов, купленных семьей за последние 7 дней (в кг, buycanmeat_c — стоимость мясных консервов, купленных семьей за последние 7 дней (в руб, buy а — ответ на вопрос Ваша семья покупала за последние 7 дней говядину (да, 2 — нет, buybeef_b — количество говядины, купленной семьей за последние 7 дней (в кг, buybeef_c — стоимость говядины, купленной семьей за последние 7 дней (в руб, buylamb_a ответ на вопрос Ваша семья покупала за последние 7 дней баранину, козлятину (1 да, 2 — нет, buylamb_b — количество баранины, козлятины, купленных семьей за последние 7 дней (в кг, buylamb_c — стоимость баранины, козлятины, купленных семьей за последние 7 дней (в руб, buypork_a — ответ на вопрос Ваша семья покупала за последние 7 дней свинину (1 — да, нет, buypork_b — количество свинины, купленной семьей за последние 7 дней (в кг, buypork_c — стоимость свинины, купленной семьей за последние 7 дней (в руб,
10000 человек. Информация, собранная в RLMS, касается размеров, источников и структуры доходов и расходов домохозяйств и индивидуумов, занятости, распределения времени, уровня образования, состояния здоровья и других характеристик (свыше 500 переменных. Переменные jredid_h — номер семьи в 14 волне, psu — первичная единица отбора (1 — Санкт-Петербург, 2 — Москва, 3 — Московская область, ..., 38— Амурская область, status — тип населенного пункта (1 — областной центр, 2 город, 3 — поселок городского типа, 4 — село, popul — численность населения вместе проживания семьи, nfm — количество членов семьи в 2005 г, buywhbr_a — ответ на вопрос Ваша семья покупала за последние 7 дней белый хлеб да, 2 — нет, buywhbr_b — количество белого хлеба, купленного семьей за последние 7 дней (в кг, buywhbr_c — стоимость белого хлеба, купленного семьей за последние 7 дней (в руб, buymacar_a — ответ на вопрос Ваша семья покупала за последние 7 дней макаронные изделия (да, 2 — нет, buymacar_b — количество макаронных изделий, купленных семьей за последние 7 дней (в кг, buymacar_c — стоимость макаронных изделий, купленных семьей за последние 7 дней (в руб, buypotat_a — ответ на вопрос Ваша семья покупала за последние 7 дней картофель (1
— да, 2 — нет, buypotat_b — количество картофеля, купленного семьей за последние 7 дней (в кг, buypotat_c — стоимость картофеля, купленного семьей за последние 7 дней (в руб, buycanmeat_a — ответ на вопрос Ваша семья покупала за последние 7 дней мясные консервы (да, 2 — нет, buycanmeat_b — количество мясных консервов, купленных семьей за последние 7 дней (в кг, buycanmeat_c — стоимость мясных консервов, купленных семьей за последние 7 дней (в руб, buy а — ответ на вопрос Ваша семья покупала за последние 7 дней говядину (да, 2 — нет, buybeef_b — количество говядины, купленной семьей за последние 7 дней (в кг, buybeef_c — стоимость говядины, купленной семьей за последние 7 дней (в руб, buylamb_a ответ на вопрос Ваша семья покупала за последние 7 дней баранину, козлятину (1 да, 2 — нет, buylamb_b — количество баранины, козлятины, купленных семьей за последние 7 дней (в кг, buylamb_c — стоимость баранины, козлятины, купленных семьей за последние 7 дней (в руб, buypork_a — ответ на вопрос Ваша семья покупала за последние 7 дней свинину (1 — да, нет, buypork_b — количество свинины, купленной семьей за последние 7 дней (в кг, buypork_c — стоимость свинины, купленной семьей за последние 7 дней (в руб,
buybird_a — ответ на вопрос Ваша семья покупала за последние 7 дней мясо птицы (да, 2 — нет, buybird_b — количество мяса птицы, купленного семьей за последние 7 дней (в кг, buybird_c — стоимость мяса птицы, купленного семьей за последние 7 дней (в руб, buyfats_a — ответ на вопрос Ваша семья покупала за последние 7 дней сало (да, 2 нет, buyfats_b — количество сала, купленного семьей за последние 7 дней (в кг, buyfats_c — стоимость сала, купленного семьей за последние 7 дней (в руб, buysaus_a— ответ на вопрос Ваша семья покупала за последние 7 дней колбасные изделия (1 — да, 2 — нет, buysaus_b — количество колбасных изделий, купленных семьей за последние 7 дней (в кг, buysaus_c — стоимость колбасных изделий, купленных семьей за последние 7 дней (в руб, buymilk_a — ответ на вопрос Ваша семья покупала за последние 7 дней молоко (1 да, 2 — нет, buymilk_b — количество молока, купленного семьей за последние 7 дней (в л, buymilk_c — стоимость молока, купленного семьей за последние 7 дней (в руб, buybutt_a — ответ на вопрос Ваша семья покупала за последние 7 дней масло животное да, 2 — нет, buybutt_b — количество масла животного, купленного семьей за последние 7 дней (в кг, buybutt_c — стоимость масла животного, купленного семьей за последние 7 дней (в руб, Ваша семья покупала за последние 7 дней сыры (1 — да, 2 — нет, buyches_b — количество сыра, купленного семьей за последние 7 дней (в кг, buyches_c — стоимость сыра, купленного семьей за последние 7 дней (в руб, buymrast_a — Ваша семья покупала за последние 7 дней масло растительное (да, 2
— нет, buymrast_b — количество масла растительного, купленного семьей за последние 7 дней (в л, buymrast_c — стоимость масла растительного, купленного семьей за последние 7 дней (в руб, buysug_a— Ваша семья покупала за последние 7 дней сахар (1 — да, 2 — нет, buysug_b — количество сахара, купленного семьей за последние 7 дней (в кг, buysug_c — стоимость сахара, купленного семьей за последние 7 дней (в руб, а Ваша семья покупала за последние 7 дней кондитерские изделия (1 — да, 2
— нет, buysug_b — количество кондитерских изделий, купленных семьей за последние 7 дней (в кг, buysug_c — стоимость кондитерских изделий, купленных семьей за последние 7 дней (в руб, buyeggs_a— Ваша семья покупала за последние 7 дней яйца (1 — да, 2 — нет, buyeggs_b — количество яиц, купленных семьей за последние 7 дней (в шт, buyeggs_c — стоимость яиц, купленных семьей за последние 7 дней (в руб, Ваша семья покупала за последние 7 дней мороженую рыбу (X — да, нет, buyfrfish_b — количество мороженой рыбы, купленной семьей за последние 7 дней (в кг, buyfrfish_c — стоимость мороженой рыбы, купленной семьей за последние 7 дней (в руб, buyvodka_a — Ваша семья покупала за последние 7 дней водку (1 —- да, 2 — нет, buyvodka_b — количество водки, купленной семьей за последние 7 дней (в л, buyvodka_c — стоимость водки, купленной семьей за последние 7 дней (в руб, inc — доход семьи за месяц, fed_okr — федеральный округ (1 — Центральный, 2 — Северо-Западный, 3 — Южный, 4
— Приволжский, 5 — Уральский, 6 — Сибирский, Дальневосточный.
— нет, buymrast_b — количество масла растительного, купленного семьей за последние 7 дней (в л, buymrast_c — стоимость масла растительного, купленного семьей за последние 7 дней (в руб, buysug_a— Ваша семья покупала за последние 7 дней сахар (1 — да, 2 — нет, buysug_b — количество сахара, купленного семьей за последние 7 дней (в кг, buysug_c — стоимость сахара, купленного семьей за последние 7 дней (в руб, а Ваша семья покупала за последние 7 дней кондитерские изделия (1 — да, 2
— нет, buysug_b — количество кондитерских изделий, купленных семьей за последние 7 дней (в кг, buysug_c — стоимость кондитерских изделий, купленных семьей за последние 7 дней (в руб, buyeggs_a— Ваша семья покупала за последние 7 дней яйца (1 — да, 2 — нет, buyeggs_b — количество яиц, купленных семьей за последние 7 дней (в шт, buyeggs_c — стоимость яиц, купленных семьей за последние 7 дней (в руб, Ваша семья покупала за последние 7 дней мороженую рыбу (X — да, нет, buyfrfish_b — количество мороженой рыбы, купленной семьей за последние 7 дней (в кг, buyfrfish_c — стоимость мороженой рыбы, купленной семьей за последние 7 дней (в руб, buyvodka_a — Ваша семья покупала за последние 7 дней водку (1 —- да, 2 — нет, buyvodka_b — количество водки, купленной семьей за последние 7 дней (в л, buyvodka_c — стоимость водки, купленной семьей за последние 7 дней (в руб, inc — доход семьи за месяц, fed_okr — федеральный округ (1 — Центральный, 2 — Северо-Западный, 3 — Южный, 4
— Приволжский, 5 — Уральский, 6 — Сибирский, Дальневосточный.
Для переменных pr_whbr, pr _mасаг, pr_potat, pr_canmeat, pr_beef, pr_lamb, pr_pork, pr_bird, pr_fats, pr_saus, pr_butter, pr_milk, pr_ches, pr_sug, pr_conf, pr_eggs, pr_frfish, pr_fishcon, pr_vodka — соответственно цена 1 кг (или 1 ли т.п.) белого хлеба, макаронных изделий, картофеля, мясных консервов, говядины, баранина и козлятины, свинины, мяса птицы, сала, колбасных изделий, масла животного, молока, сыра, сахара, кондитерских изделий, яиц, рыбы мороженой, рыбных консервов, водки. Аналогично pr_cabag, pr_cucumb, pr_tomat, pr_carrot, pr_onion, pr_blbr, pr_flour, pr_kefir, pr_smet, pr_tvor, pr_marg, pr_jam, pr_wine, pr_beer, pr_cofee, pr_tea — соответственно цена
1 кг (или 1 л) капусты, огурцов, помидоров, моркови, лука, черного хлеба, муки, кефира, сметаны, творога, маргарина, джема, вина, пива, кофе, чая.
1. Поданным файла data 2.3 оцените зависимость потребления одного из видов товаров Y от его цены Р и дохода домохозяйства I:
Y = ????
0
+ ????
1
P + ????
2
I + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Оцените вашу регрессию поболее однородной выборке. Например, можно выбрать наблюдения, относящиеся к одному федеральному округу, и/или одной первичной единице отбора, и/или одному типу населенного пункта. Дайте экономическую интерпретацию полученным результатам. Можно включить в регрессию цену товаров — субститутов или комплиментов.
4. Проверьте адекватность каждой регрессии с помощью p-value для статистики. Если p- value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
5. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
6. Оформите отчет по результатам упражнения в файле. Поданным файла data 2.3 оценим зависимость потребления одного из видов товаров Y от его цены Р и дохода домохозяйства I. Для примера возьмем молоко. Тогда
Y= buymilk_b – количество молока, купленного семьей за последние 7 дней (в л)
P = buymilk_c — стоимость молока, купленного семьей за последние 7 дней (в руб,
L= inc — доход семьи за месяц Создадим данные переменные для удобства. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const, Р и L – Ок
Y = ????
0
+ ????
1
P + ????
2
I + ???? Модель 1: МНК, использованы наблюдения 1-3335 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
1,54532 0,0518883 29,78
<0,0001
***
P
0,0155000 0,000525972 29,47
<0,0001
***
L
6,42451e-06 2,29238e-06 2,803 0,0051
*** Среднее завис. перемен
2,148561 Ст. откл. завис. перем
2,685661 Сумма кв. остатков
18980,54 Ст. ошибка модели
2,386721 квадрат
0,210703 Исправ. квадрат
0,210229
F(2, 3332)
444,7394 Р-значение (F)
6,3e-172 Лог. правдоподобие
−7631,845 Крит. Акаике
15269,69 Крит. Шварца
15288,03 Крит. Хеннана-Куинна
15276,25
1 кг (или 1 л) капусты, огурцов, помидоров, моркови, лука, черного хлеба, муки, кефира, сметаны, творога, маргарина, джема, вина, пива, кофе, чая.
1. Поданным файла data 2.3 оцените зависимость потребления одного из видов товаров Y от его цены Р и дохода домохозяйства I:
Y = ????
0
+ ????
1
P + ????
2
I + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Оцените вашу регрессию поболее однородной выборке. Например, можно выбрать наблюдения, относящиеся к одному федеральному округу, и/или одной первичной единице отбора, и/или одному типу населенного пункта. Дайте экономическую интерпретацию полученным результатам. Можно включить в регрессию цену товаров — субститутов или комплиментов.
4. Проверьте адекватность каждой регрессии с помощью p-value для статистики. Если p- value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
5. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
6. Оформите отчет по результатам упражнения в файле. Поданным файла data 2.3 оценим зависимость потребления одного из видов товаров Y от его цены Р и дохода домохозяйства I. Для примера возьмем молоко. Тогда
Y= buymilk_b – количество молока, купленного семьей за последние 7 дней (в л)
P = buymilk_c — стоимость молока, купленного семьей за последние 7 дней (в руб,
L= inc — доход семьи за месяц Создадим данные переменные для удобства. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая Y
– Регрессоры const, Р и L – Ок
Y = ????
0
+ ????
1
P + ????
2
I + ???? Модель 1: МНК, использованы наблюдения 1-3335 Зависимая переменная Y Коэффициент Ст. ошибка статистика значение const
1,54532 0,0518883 29,78
<0,0001
***
P
0,0155000 0,000525972 29,47
<0,0001
***
L
6,42451e-06 2,29238e-06 2,803 0,0051
*** Среднее завис. перемен
2,148561 Ст. откл. завис. перем
2,685661 Сумма кв. остатков
18980,54 Ст. ошибка модели
2,386721 квадрат
0,210703 Исправ. квадрат
0,210229
F(2, 3332)
444,7394 Р-значение (F)
6,3e-172 Лог. правдоподобие
−7631,845 Крит. Акаике
15269,69 Крит. Шварца
15288,03 Крит. Хеннана-Куинна
15276,25
Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 6,3e-172 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%, значение у коэффициента
????
2
< 0,01 => принимаем гипотезу
????
1
с вероятностью. 99%. Таким образом, при увеличении стоимости молока на 1 руб, семья покупает его на 0,0155 литров больше. При увеличении дохода семьи на 1 единицу, семья покупает его на
6,42451e-06 литров больше. Но при этом, стоит заметить, что ????
2
= 0,210703, исправленный
????
2
= 0,210229, что говорит о плохом качестве модели, зависимая переменная объясняется независимыми лишь на 21%.
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 6,3e-172 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%, значение у коэффициента
????
2
< 0,01 => принимаем гипотезу
????
1
с вероятностью. 99%. Таким образом, при увеличении стоимости молока на 1 руб, семья покупает его на 0,0155 литров больше. При увеличении дохода семьи на 1 единицу, семья покупает его на
6,42451e-06 литров больше. Но при этом, стоит заметить, что ????
2
= 0,210703, исправленный
????
2
= 0,210229, что говорит о плохом качестве модели, зависимая переменная объясняется независимыми лишь на 21%.
Упражнение 2.4. Моделирование продаж одежды В файле data 2.4 (в формате Excel) содержатся данные о продажах одежды в 400 голландских магазинах мужской одежды. Эти данные позаимствованы с сайта издательства книги Марио Вербика (http://wileyeurope.com/go/ verbeek2ed). Переменные tsales — среднегодовые продажи в гульденах, sales — продажи в расчете на квадратный метр, margin — маржинальная валовая прибыль, nown — количество собственников (менеджеров, nfull — количество полностью занятых работников, npart — количество частично занятых работников, naux — количество временно работающих, hoursw — общее число отработанных часов, hourspw — количество отработанных часов в расчете на одного работающего, invi — капиталовложения в помещения, inv2 — капиталовложения в автоматизацию, ssize — размер магазина в м, start — год открытия магазина.
1. Оцените параметры уравнения множественной регрессии sales = ????
0
+ ????
1
hoursw + ????
2
ssize + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом
4. Улучшится ли качество подгонки регрессии при включении в модель переменной nown переменной npart? Поэкспериментируйте и с включением других переменных.
5. Проверьте адекватность регрессии с помощью p-value для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
6. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
7. Если ????
????????????
2
при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше
8. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая sales – Регрессоры const, hoursw и ssize – Ок Модель 1: МНК, использованы наблюдения 1-400 Зависимая переменная sales Коэффициент Ст. ошибка статистика значение const
5133,59 321,693 15,96
<0,0001
*** hoursw
37,5284 2,83722 13,23
<0,0001
*** ssize
−22,1446 1,62507
−13,63
<0,0001
*** Среднее завис. перемен
6334,751 Ст. откл. завис. перем
3739,344 Сумма кв. остатков
3,54e+09 Ст. ошибка модели
2985,371 квадрат
0,365804 Исправ. квадрат
0,362609
F(2, 397)
114,4947 Р-значение (F)
5,51e-40 Лог. правдоподобие
−3766,662 Крит. Акаике
7539,323
1. Оцените параметры уравнения множественной регрессии sales = ????
0
+ ????
1
hoursw + ????
2
ssize + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности.
3. Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом
4. Улучшится ли качество подгонки регрессии при включении в модель переменной nown переменной npart? Поэкспериментируйте и с включением других переменных.
5. Проверьте адекватность регрессии с помощью p-value для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
6. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
7. Если ????
????????????
2
при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше
8. Оформите отчет по результатам упражнения в файле. Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая sales – Регрессоры const, hoursw и ssize – Ок Модель 1: МНК, использованы наблюдения 1-400 Зависимая переменная sales Коэффициент Ст. ошибка статистика значение const
5133,59 321,693 15,96
<0,0001
*** hoursw
37,5284 2,83722 13,23
<0,0001
*** ssize
−22,1446 1,62507
−13,63
<0,0001
*** Среднее завис. перемен
6334,751 Ст. откл. завис. перем
3739,344 Сумма кв. остатков
3,54e+09 Ст. ошибка модели
2985,371 квадрат
0,365804 Исправ. квадрат
0,362609
F(2, 397)
114,4947 Р-значение (F)
5,51e-40 Лог. правдоподобие
−3766,662 Крит. Акаике
7539,323
Крит. Шварца
7551,297 Крит. Хеннана-Куинна
7544,065 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 5,51e-40 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%, что говорит о зависимости продаж от отработанных часов и размеров магазина. Уравнение регрессии
???????????????????? = 5133,59 + 37,5284ℎ???????????????????? − 22,1446????????????????????
(321,693) (2,83722) (1,62507) Таким образом, при увеличении общего числа отработанных часов на 1 единицу, продажи в расчете на квадратный метр увеличиваются на 37,5284, а при увеличении размера магазина на 1 квадратный метр, продажи в расчете на квадратный метр уменьшаются на 22,1446. Для эксперимента добавим в модель nown и npart. Модель 2: МНК, использованы наблюдения 1-400 Зависимая переменная sales Коэффициент Ст. ошибка статистика значение const
4494,51 462,795 9,712
<0,0001
*** hoursw
39,0244 3,09441 12,61
<0,0001
*** ssize
−24,3237 1,69427
−14,36
<0,0001
*** nown
−385,007 255,583
−1,506 0,1328 npart
818,432 224,016 3,653 0,0003
*** Среднее завис. перемен
6334,751 Ст. откл. завис. перем
3739,344 Сумма кв. остатков
3,40e+09 Ст. ошибка модели
2935,652 квадрат
0,389842 Исправ. квадрат
0,383663
F(4, 395)
63,09327 Р-значение (F)
3,29e-41 Лог. правдоподобие
−3758,934 Крит. Акаике
7527,867 Крит. Шварца
7547,824 Крит. Хеннана-Куинна
7535,770 значение у коэффициента
????
3
< 0,01 => принимаем гипотезу о том, что коэффициент значим с вероятностью. 99%, а вот коэффициент
????
4
> 0,1, то есть он незначим. Таким образом, количество собственников (менеджеров) не влияет на продажи в расчете на квадратный метр и этот параметр можно исключить из модели, а вот увеличение числа занятых работников на 1, продажи на квадратный метр увеличиваются на 818,432 единицы.
7551,297 Крит. Хеннана-Куинна
7544,065 Проверим адекватность регрессии в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 5,51e-40 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим Все коэффициенты значимы. значение у коэффициентов
????
0
,
????
1
,
????
2
< 0,0001 => принимаем гипотезу
????
1
с вероятностью. 99.9%, что говорит о зависимости продаж от отработанных часов и размеров магазина. Уравнение регрессии
???????????????????? = 5133,59 + 37,5284ℎ???????????????????? − 22,1446????????????????????
(321,693) (2,83722) (1,62507) Таким образом, при увеличении общего числа отработанных часов на 1 единицу, продажи в расчете на квадратный метр увеличиваются на 37,5284, а при увеличении размера магазина на 1 квадратный метр, продажи в расчете на квадратный метр уменьшаются на 22,1446. Для эксперимента добавим в модель nown и npart. Модель 2: МНК, использованы наблюдения 1-400 Зависимая переменная sales Коэффициент Ст. ошибка статистика значение const
4494,51 462,795 9,712
<0,0001
*** hoursw
39,0244 3,09441 12,61
<0,0001
*** ssize
−24,3237 1,69427
−14,36
<0,0001
*** nown
−385,007 255,583
−1,506 0,1328 npart
818,432 224,016 3,653 0,0003
*** Среднее завис. перемен
6334,751 Ст. откл. завис. перем
3739,344 Сумма кв. остатков
3,40e+09 Ст. ошибка модели
2935,652 квадрат
0,389842 Исправ. квадрат
0,383663
F(4, 395)
63,09327 Р-значение (F)
3,29e-41 Лог. правдоподобие
−3758,934 Крит. Акаике
7527,867 Крит. Шварца
7547,824 Крит. Хеннана-Куинна
7535,770 значение у коэффициента
????
3
< 0,01 => принимаем гипотезу о том, что коэффициент значим с вероятностью. 99%, а вот коэффициент
????
4
> 0,1, то есть он незначим. Таким образом, количество собственников (менеджеров) не влияет на продажи в расчете на квадратный метр и этот параметр можно исключить из модели, а вот увеличение числа занятых работников на 1, продажи на квадратный метр увеличиваются на 818,432 единицы.
Упражнение 2.5. Моделирование продаж мороженого В файле data 2.5 (в формате Excel) содержатся данные о четырехнедельных продажах мороженого с 18.03.1951 по 11.07.1953. Эти данные позаимствованы с сайта издательства книги Марио Вербика (http://wileyeurope.com/go/ verbeek2ed). Переменные cons - потребление мороженого в расчете на одного покупателя в пинтах, income — средний доход семьи за неделю в долларах США, price цена одной пинты мороженого, temp — средняя температура в градусах Фаренгейта.
1. Оцените параметры уравнения множественной регрессии cons = ????
0
+ ????
1
????ncome + ????
2
price + ????
3
temp + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности. Какие факторы влияют на потребление мороженого
3. Проверьте адекватность регрессии с помощью р для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
4. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
5. Оформите отчет по результатам упражнения в Word-файле.
Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая cons – Регрессоры const, income, price и temp – Ок Модель 1: МНК, использованы наблюдения 1-30 Зависимая переменная cons Коэффициент Ст. ошибка статистика значение const
0,197315 0,270216 0,7302 0,4718 income
0,00330776 0,00117142 2,824 0,0090
*** price
−1,04441 0,834357
−1,252 0,2218 temp
0,00345843 0,000445547 7,762
<0,0001
*** Среднее завис. перемен
0,359433 Ст. откл. завис. перем
0,065791 Сумма кв. остатков
0,035273 Ст. ошибка модели
0,036833 квадрат
0,718994 Исправ. квадрат
0,686570
F(3, 26)
22,17489 Р-значение (F)
2,45e-07 Лог. правдоподобие
58,61944 Крит. Акаике
−109,2389 Крит. Шварца
−103,6341 Крит. Хеннана-Куинна
−107,4459 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
0
> 0,1=> принимаем гипотезу
????
0
– коэффициент незначим; значение у коэффициента
????
1
< 0,01=> принимаем гипотезу
????
1
с вероятностью. 99%, коэффициент значим значение у коэффициента
????
2
> 0,1=> принимаем гипотезу
????
0
– коэффициент незначим; значение у коэффициента
????
3
< 0,0001=> принимаем гипотезу
????
1
с вероятностью. 99,9%, коэффициент значим. Таким образом, на - потребление мороженого влияют средний доход семьи и средняя температура. Построим новую модель, исключив незначимые факторы
1. Оцените параметры уравнения множественной регрессии cons = ????
0
+ ????
1
????ncome + ????
2
price + ????
3
temp + ????
2. Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по отдельности. Какие факторы влияют на потребление мороженого
3. Проверьте адекватность регрессии с помощью р для статистики. Если p-value меньше выбранного вами уровня значимости, например, 0.05, то регрессия адекватна.
4. Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p- value с выбранным уровнем значимости. Если p-value меньше выбранного вами уровня значимости, то соответствующий коэффициент значим.
5. Оформите отчет по результатам упражнения в Word-файле.
Исследуем линейную модель через Модель – Метод наименьших квадратов – Зависимая cons – Регрессоры const, income, price и temp – Ок Модель 1: МНК, использованы наблюдения 1-30 Зависимая переменная cons Коэффициент Ст. ошибка статистика значение const
0,197315 0,270216 0,7302 0,4718 income
0,00330776 0,00117142 2,824 0,0090
*** price
−1,04441 0,834357
−1,252 0,2218 temp
0,00345843 0,000445547 7,762
<0,0001
*** Среднее завис. перемен
0,359433 Ст. откл. завис. перем
0,065791 Сумма кв. остатков
0,035273 Ст. ошибка модели
0,036833 квадрат
0,718994 Исправ. квадрат
0,686570
F(3, 26)
22,17489 Р-значение (F)
2,45e-07 Лог. правдоподобие
58,61944 Крит. Акаике
−109,2389 Крит. Шварца
−103,6341 Крит. Хеннана-Куинна
−107,4459 Проверим коэффициенты на значимость
????
0
: коэффициент незначим
????
1
: коэффициент значим значение у коэффициента
????
0
> 0,1=> принимаем гипотезу
????
0
– коэффициент незначим; значение у коэффициента
????
1
< 0,01=> принимаем гипотезу
????
1
с вероятностью. 99%, коэффициент значим значение у коэффициента
????
2
> 0,1=> принимаем гипотезу
????
0
– коэффициент незначим; значение у коэффициента
????
3
< 0,0001=> принимаем гипотезу
????
1
с вероятностью. 99,9%, коэффициент значим. Таким образом, на - потребление мороженого влияют средний доход семьи и средняя температура. Построим новую модель, исключив незначимые факторы
Модель 2: МНК, использованы наблюдения 1-30 Зависимая переменная cons Коэффициент Ст. ошибка статистика значение income
0,00233203 0,000235419 9,906
<0,0001
*** temp
0,00331139 0,000386345 8,571
<0,0001
*** Среднее завис. перемен
0,359433 Ст. откл. завис. перем
0,065791 Сумма кв. остатков
0,038912 Ст. ошибка модели
0,037279 Нецентрированный R- квадрат
0,990275 Центрированный R- квадрат
0,689999
F(2, 28)
1425,599 Р-значение (F)
6,77e-29 Лог. правдоподобие
57,14648 Крит. Акаике
−110,2930 Крит. Шварца
−107,4906 Крит. Хеннана-Куинна
−109,3964 Оставшиеся факторы остались значимыми. Уравнение регрессии в таком случае будет иметь вид cons = 0,00233203income + 0,00331139 temp Проверим уравнение на значимость в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 6,77e-29 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Делаем вывод, что при увеличении среднего дохода семьи за неделю на 1 доллар США, потребление мороженного в расчете на одного покупателя увеличивается на
0,00233203 пинта. При увеличении средней температуры на 1 градус Фаренгейта, потребление мороженного в расчете на одного покупателя увеличивается на 0,00331139 пинта. Стоит заметить, что ????
2
= 0,990275, нецентрированный
????
2
= 0,689999, что говорит о хорошем качестве модели.
0,00233203 0,000235419 9,906
<0,0001
*** temp
0,00331139 0,000386345 8,571
<0,0001
*** Среднее завис. перемен
0,359433 Ст. откл. завис. перем
0,065791 Сумма кв. остатков
0,038912 Ст. ошибка модели
0,037279 Нецентрированный R- квадрат
0,990275 Центрированный R- квадрат
0,689999
F(2, 28)
1425,599 Р-значение (F)
6,77e-29 Лог. правдоподобие
57,14648 Крит. Акаике
−110,2930 Крит. Шварца
−107,4906 Крит. Хеннана-Куинна
−109,3964 Оставшиеся факторы остались значимыми. Уравнение регрессии в таком случае будет иметь вид cons = 0,00233203income + 0,00331139 temp Проверим уравнение на значимость в целом
????
0
: уравнение незначимо в целом, то есть
????
0
=
????
1
=
????
2
=
????
3
= 0
????
1
: уравнение значимо в целом, то есть
????
0
≠ 0 и/или
????
1
≠ 0 и/или
????
2
≠ 0 и/или
????
3
≠ 0 значение для F статистики p = 6,77e-29 < 0,01, а значит принимается гипотеза уравнение значимо в целом с вероятностью 99%, то есть хотя бы один из коэффициентов уравнения регрессии отличается от нуля с вероятностью 99%). Делаем вывод, что при увеличении среднего дохода семьи за неделю на 1 доллар США, потребление мороженного в расчете на одного покупателя увеличивается на
0,00233203 пинта. При увеличении средней температуры на 1 градус Фаренгейта, потребление мороженного в расчете на одного покупателя увеличивается на 0,00331139 пинта. Стоит заметить, что ????
2
= 0,990275, нецентрированный
????
2
= 0,689999, что говорит о хорошем качестве модели.