Файл: Методические указания к лабораторной работе по курсу Технологии анализа данных для студентов, обучающихся по основной образовательной программе.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.11.2023
Просмотров: 48
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Комсомольский-на-Амуре государственный университет» Кафедра "Информационные системы" |
ПАРНАЯ КОРРЕЛЯЦИЯ Методические указания к лабораторной работе по курсу «Технологии анализа данных» для студентов, обучающихся по основной образовательной программе бакалавров по направлениям 09.03.03 «Прикладная информатика» |
|
Комсомольск-на-Амуре 2019 |
Введение
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Во многих случаях форма линии регрессии устанавливается путем выбора из заданного множества стандартных зависимостей, к числу которых, прежде всего, относятся:
-
линейная зависимость ; -
степенная зависимость ; -
показательная зависимость -
гиперболическая зависимость ; -
логарифмическая зависимость ; -
полиномиальная зависимость ,
где - неизвестные параметры линии регрессии;
- уравнение регрессии.
Определить тип уравнения можно, исследуя зависимость графически. Предположим, у нас есть некоторые статистические данные, для которых мы хотим подобрать линию регрессии (рис. 1.7). На рисунке показаны три такие «пробы». Нетрудно видеть, что полиномиальная зависимость «лучше» линейной. А из двух полиномов (2-ой и 4-ой степени) «лучшим» является полином 4-ой степени.
Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи – гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный – значительно быстрее, то используется параболическая или степенная регрессия.
1 Задание
Известны данные по регионам России за 2019 год о среднемесячной номинальной начисленной заработной плате работников и прожиточном минимуме, рублей.
1) Постройте поле корреляции и сформулируйте гипотезу о форме связи.
2) Рассчитайте параметры уравнений парных регрессий:
- линейной;
- степенной;
- логарифмической;
- показательной.
3) Для каждой из регрессий:
- вычислите средние ошибки аппроксимации, сделайте выводы о качестве эконометрических моделей;
- совместите на одном графике поле корреляции и линию регрессии;
- оцените тесноту связи с помощью показателей корреляции и детерминации;
- оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования;
- выберите лучшее уравнение регрессии и дайте его обоснование.
4) Сделайте выводы.
Исходные данные приведены в таблицах ниже.
Таблица 1 – Номера регионов из таблицы 2 (по вариантам)
Варианты | |||||||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
6 | 7 | 8 | 9 | 10 | 10 | 12 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
11 | 12 | 13 | 14 | 15 | 14 | 17 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |
16 | 17 | 18 | 19 | 20 | 18 | 22 | 19 | 20 | 21 | 22 | 23 | 24 | 25 |
21 | 22 | 23 | 24 | 25 | 22 | 27 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
26 | 27 | 28 | 29 | 30 | 26 | 32 | 31 | 32 | 33 | 34 | 35 | 36 | 37 |
31 | 32 | 33 | 34 | 35 | 30 | 37 | 37 | 38 | 39 | 40 | 41 | 42 | 43 |
36 | 37 | 38 | 39 | 40 | 34 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 48 |
41 | 42 | 43 | 44 | 45 | 41 | 49 | 49 | 50 | 51 | 52 | 53 | 54 | 53 |
46 | 47 | 48 | 49 | 50 | 48 | 56 | 55 | 55 | 57 | 58 | 59 | 60 | 58 |
51 | 52 | 53 | 54 | 55 | 55 | 63 | 61 | 60 | 63 | 64 | 65 | 65 | 63 |
56 | 57 | 58 | 59 | 60 | 62 | 70 | 67 | 65 | 69 | 70 | 71 | 70 | 68 |
61 | 62 | 63 | 64 | 65 | 69 | 77 | 73 | 70 | 75 | 76 | 77 | 75 | 73 |
71 | 67 | 68 | 74 | 70 | 76 | 84 | 79 | 75 | 81 | 82 | 82 | 80 | 78 |
84 | 72 | 73 | 83 | 75 | 83 | 85 | 85 | 80 | 84 | 85 | 84 | 85 | 83 |
Таблица 2 – Данные о среднемесячной номинальной начисленной заработной плате работников и прожиточном минимуме по регионам РФ в 2019 году, тыс. рублей
Номер региона | Наименование региона | Начисленная заработная плата | Прожиточный минимум на душу населения |
1 | Алтайский край | 27,962 | 9,490 |
2 | Амурская область | 47,234 | 10,980 |
3 | Архангельская область | 49,435 | 12,090 |
4 | Астраханская область | 36,093 | 9,622 |
5 | Белгородская область | 34,615 | 9,467 |
6 | Брянская область | 29,853 | 9,880 |
7 | Владимирская область | 33,076 | 10,872 |
8 | Волгоградская область | 33,371 | 9,318 |
9 | Вологодская область | 39,116 | 10,382 |
10 | Воронежская область | 33,690 | 8,966 |
11 | Еврейская авт.область | 42,400 | 12,825 |
12 | Забайкальский край | 43,896 | 11,290 |
13 | Ивановская область | 27,553 | 10,102 |
14 | Иркутская область | 46,387 | 11,235 |
15 | Кабардино-Балкарская Республика | 27,466 | 9,800 |
16 | Калининградская область | 35,637 | 10,980 |
17 | Калужская область | 41,442 | 10,482 |
18 | Камчатский край | 80,448 | 19,555 |
19 | Карачаево-Черкесская Республика | 26,955 | 9,335 |
20 | Кемеровская область | 41,770 | 9,476 |
21 | Кировская область | 30,213 | 9,675 |
22 | Костромская область | 31,421 | 11,914 |
23 | Краснодарский край | 36,133 | 10,900 |
24 | Красноярский край | 49,932 | 10,238 |
25 | Курганская область | 30,632 | 10,349 |
26 | Курская область | 32,709 | 9,280 |
27 | Ленинградская область | 46,387 | 10,450 |
28 | Липецкая область | 34,312 | 8,734 |
29 | Магаданская область | 94,856 | 18,146 |
30 | Москва | 94,294 | 16,463 |
31 | Московская область | 55,555 | 12,229 |
32 | Мурманская область | 63,715 | 14,890 |
33 | Ненецкий авт.округ | 88,027 | 20,460 |
34 | Нижегородская область | 35,212 | 10,900 |
35 | Новгородская область | 32,174 | 10,652 |
36 | Новосибирская область | 39,076 | 10,843 |
37 | Омская область | 35,368 | 9,250 |
38 | Оренбургская область | 32,883 | 8,816 |
39 | Орловская область | 29,683 | 10,897 |
40 | Пензенская область | 30,765 | 9,783 |
41 | Пермский край | 39,210 | 10,098 |
42 | Приморский край | 46,867 | 12,537 |
43 | Псковская область | 29,441 | 10,651 |
44 | Республика Адыгея | 30,192 | 9,232 |
45 | Республика Алтай | 33,387 | 10,560 |
46 | Республика Башкортостан | 36,465 | 9,014 |
47 | Республика Бурятия | 39,115 | 10,823 |
48 | Республика Дагестан | 26,835 | 9,301 |
49 | Республика Ингушетия | 27,410 | 9,678 |
50 | Республика Калмыкия | 28,617 | 9,000 |
51 | Республика Карелия | 42,964 | 13,030 |
52 | Республика Коми | 53,416 | 12,948 |
53 | Республика Крым | 32,748 | 10,900 |
54 | Республика Марий Эл | 30,152 | 9,780 |
55 | Республика Мордовия | 28,826 | 9,340 |
56 | Республика Саха (Якутия) | 73,402 | 16,463 |
57 | Республика Северная Осетия - Алания | 28,751 | 9,767 |
58 | Республика Татарстан | 37,418 | 9,349 |
59 | Республика Тыва | 39,673 | 10,102 |
60 | Республика Хакасия | 40,548 | 10,897 |
61 | Ростовская область | 33,757 | 9,671 |
62 | Рязанская область | 34,488 | 9,821 |
63 | Самарская область | 36,431 | 10,900 |
64 | Санкт-Петербург | 65,872 | 11,007 |
65 | Саратовская область | 30,717 | 9,637 |
66 | Сахалинская область | 87,418 | 15,786 |
67 | Свердловская область | 41,110 | 11,345 |
68 | Севастополь | 34,621 | 10,980 |
69 | Смоленская область | 31,269 | 10,364 |
70 | Ставропольский край | 31,836 | 9,089 |
71 | Тамбовская область | 28,697 | 8,861 |
72 | Тверская область | 33,524 | 10,410 |
73 | Томская область | 45,526 | 11,179 |
74 | Тульская область | 38,151 | 9,915 |
75 | Тюменская область | 48,613 | 10,887 |
76 | Удмуртская Республика | 34,052 | 9,150 |
77 | Ульяновская область | 30,677 | 9,682 |
78 | Хабаровский край | 50,213 | 15,089 |
79 | Ханты-Мансийский авт.округ - Югра | 75,087 | 14,512 |
80 | Челябинская область | 37,433 | 9,592 |
81 | Чеченская Республика | 27,757 | 9,664 |
82 | Чувашская Республика | 29,671 | 9,560 |
83 | Чукотский авт.округ | 107,107 | 21,441 |
84 | Ямало-Ненецкий авт.округ | 101,012 | 20,670 |
85 | Ярославская область | 36,016 | 9,695 |
2 Основные теоретические сведения
Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат по оси абсцисс откладываются значения факторного признака, а по оси ординат – результативного. Каждое пересечение линий обозначается точкой. При отсутствии связи имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определённой линии, выражающей форму связи (рис. 2).
Рисунок 2 - График корреляционного поля
Приведённый на рис.2 график показывает, что с увеличением величины х значение у в среднем также возрастает.
2.1 Регрессии
Линейная зависимость
Линейная регрессия сводится к нахождению уравнения вида
Для определения значений неизвестных параметров а и b при линейной зависимости в общем случае применяют метод наименьших квадратов (МНК), с помощью которого получают уравнения для нахождения искомых параметров а и b:
;
где
n - объем исследуемой совокупности (число единиц наблюдений).
Пример 1. Пусть имеются данные (см. табл. 3), характеризующие деловую активность акционерных обществ закрытого типа: прибыль (тыс. р.) и затраты на 1 р. произведенной продукции (коп.).
Требуется найти уравнение регрессии для данного примера.
Таблица 3 – Исходные данные
номер п/п | Затраты на 1 руб. продукции, коп. | Прибыль, тыс.р. |
хi | уi | |
1 | 77 | 1070 |
2 | 77 | 1001 |
3 | 81 | 789 |
4 | 82 | 779 |
5 | 89 | 606 |
6 | 96 | 221 |
Сумма | 502 | 4466 |
Среднее | 83,66 | 744,33 |