ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.12.2023
Просмотров: 44
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Домашняя работа по дисциплине «Эконометрика»
тема: «Регрессионный анализ»
В рамках данного задания мы будем проводить небольшое эконометрическое исследование на данных Российского мониторинга экономического положения и здоровья населения (РМЭЗ, он же RLMS). Опишем предварительные шаги, которые Вам надо будет сделать, прежде чем приступать к работе с данными.
1) Первый шаг - это выбрать данные согласно своему варианту.
2) Для загрузки данных в R необходимо воспользоваться пакетом rlms:
Пакет rlms предназначен для работы с данными исследования RLMS в R. Пакет можно установить командами:
install.packages("devtools")
devtools::install_github("bdemeshev/rlms")
или
devtools::install("./rlms-master")
3) Для исследования необходимо составить массив данных с отобранными переменными1:
-
Заработной платой на основе переменной *j13.2 -
Возрастом на основе переменной *_age -
Полом на основе переменной *h5 -
Наличием высшего образования на основе переменной *j72.5a -
Типом населенного пункта на основе переменной status -
Средней продолжительностью рабочей недели на основе переменной *j6.2 -
Семейным положением на основе переменной *j322 -
Удовлетворенностью условиями труда на основе переменной *j1.1.2
Описание переменных можно посмотреть файле описания для конкретной волны.
Чтобы получить массив для анализа нужно сделать следующие шаги:
1) Подгрузить пакеты и файл.
2) Отобрать только 8 переменных, описанных выше.
3) Отобрать только тех людей, у которых семейное положение входит в данный список:
-
Никогда в браке не состоял(а) -
Состоите в первом зарегистрированном браке -
Состоите в повторном зарегистрированном браке -
Разведены -
Вдовец/вдова
4) Отобрать только два типа населённого пункта: город и областной центр.
5) Отобрать только две категории степени удовлетворенности условиями труда: полностью удовлетворен и скорее удовлетворен.
6) Отобрать только тех людей, кто на вопрос про высшее образование ответил:
-
Учились -
Учитесь -
Нет
7) Из переменной тип населенного пункта сделать дамми-переменную, равную 1 для города и 0 для областного центра.
8) Из переменной удовлетворённость условиями труда сделать дамми-переменную
, равную 1 для полностью удовлетворен и 0 для скорее удовлетворен.
9) Из переменной пол сделать дамми-переменную, равную 1 для мужчин и 0 для женщин.
10) Переменную семейное положение необходимо превратить в набор фиктивных переменных. Использовать будем следующие категории:
-
Никогда в браке не состоял(а) -
Состоите в зарегистрированном браке или состоите в повторном зарегистрированном браке -
Разведены -
Вдовец/вдова
В итоге Вы должны получить 4 фиктивные переменные, отвечающие за принадлежность респондента к одной из этих категорий.
11) Из переменной высшее образование сделать дамми-переменную, равную 1 для тех, кто получил или получает высшее образование, и 0 для тех, кто не получал.
12) Создать массив данных, очищенный от пропущенных наблюдений, NA. Таким образом, у Вас должно получиться массив данных без NA!
Теперь, когда данные скачаны, загружены в R и отобраны в массив, Вы можете приступать к выполнению заданий.
Задание 1.
Рассчитайте основные характеристики для всех рядов вашего массива данных.
Определите чему равно количество женатых мужчин в его выборке?
Чему равно миниальное значение заработной платы, указанной респондентами?
Примечание: в этом задании необходимо представить таблицу с характеристиками переменных, такими как среднее значение, стандартное отклонение или вариация, минимальное максимальное значение и медиана, как в целом по выборке, так и отдельно по мужчинам и женщинам.
Сделайте вывод.
Задание 2.
Проведите графический анализ данных: постройте гистограммы заработной платы в зависимости от пола респондента, места проживания и наличия высшего образования и семейного положения.
Примечание: в итоге у Вас должно получиться четыре графика.
Сделайте вывод.
Задание 3.
Оцените зависимость заработной платы в рублях, респондента от дамми на пол , возраста в годах, дамми на наличие высшего образования , дамми на проживание в городе или областном центре
, дамми на удовлетворённость условиями труда , средней продолжительности рабочей недели в часах и три дамми на семейный статус, беря одиноких людей за базовую категорию.
Дайте характеристику качества полученной модели: укажите чему равен скорректированный , как интерпретируется тест Фишера, а также укажите переменные значимо влияющие на результат, дайте их интерпретацию.
Выпишите уравнение для разведенной женщины, проживающей в городе, имеющей высшее образование.
Примечание: в данном задании надо привести таблицу с коэффициентами модели, а также с указанием качественных характеристик модели.
Выпишите уравнение для разведенной женщины, проживающей в городе, имеющей высшее образование
Задание 4.
С помощью критерия VIF проверьте построенную в п.3 модель на мультиколлинеарность. Для этого используйте пакет library(car) .
Сделайте вывод.
Задание 5.
Оценив регрессию, проведите формальный тест на гетероскедастичность, а именно тест Бройша-Пагана. Для этого используйте пакет library(lmtest) .
Чему равно наблюдаемое значение тестовой статистики в данном тесте? И какой можно сделать вывод.
Задание 6.
Если есть гетероскедастичность в данных, оцените регрессию и проверьте гипотезы, используя стандартные ошибки с поправкой на гетероскедастичность. Для этого используйте пакет library(lmtest) .
Какие факторы являются значимыми при робастных ошибках? Как изменились Ваши выводы относительно влияния переменных по сравнению с выводами из п.3? Для чего необходимо было переходить к робастным оценкам?
Примечание: как и в п.3 в этом задании должна быть представлена таблица с результатами анализа.
Задание 7.
Вам необходимо проверить, можно ли использовать более короткую модель без дамми на семейный статус с помощью теста Вальда. Для этого используйте пакет library(lmtest) функцию waldtest().
Альтернативная модель имеет следующйи вид:
При тестировании гипотезы о нескольких линейных ограничениях, как рассчитывается и чему равно значение тестовой статистики? И какой Вы сделаете вывод.
Задание 8.
Также сравните две модели с помощью информационных критериев AIC и BIC. Для этого используйте пакет library(memisc) .
Какой вывод Вы можете сделать?
Задание 9.
Возможно в Вашей первой модели есть пропущенные переменные в данных, поэтому необходимо провести тест Рамсея на пропущенные переменные. Для этого используйте пакет library(lmtest) .
Какой вывод после проведения теста можете сделать?
Предложите свою спецификацию модели. Оцените её и проверьте с помощью теста Рамсея на пропущенные переменные.
Задание 10.
Теория человеческого капитала утверждает, что модель заработной платы – это полулогарифмическую модель:
Оцените уравнение полулогарифмической модели, дайте интерпретацию всех значимых оценок коэффициентов модели.
Какая из моделей (из п.3 или п.10) лучше описывает исходные данные? Для ответа на этот вопрос проведите тест Бокса-Кокса (в ответе приведите гипотезу теста и его результат).
Если данная модель лучше модели из п.3, повторите для нее все задания с 4 по 9.
1 Вместо «*» ставим букву согласно своей волне.