Файл: Методические указания к лабораторной работе по курсу Технологии анализа данных для студентов, обучающихся по основной образовательной программе.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.11.2023

Просмотров: 46

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Решение. В соответствии с условием задачи прибыль будет результативным признаком (у), а затраты на 1 р. произведенной продукции будут факторным признаком или просто фактором (х).



Рисунок 1 – График корреляционного поля по данным таблицы 3

Корреляционное поле, построенное по данным табл. 3 (см. рис. 1), позволяет предположить наличие линейной зависимости между рассматриваемыми признаками.



Система нормальных уравнений для данного примера имеет вид



Искомые параметры а и b

;

где

Рассчитаем средние величины, для удобства расчёты сведём в таблицу 4. В последней строке таблицы расположены данные о значении средних величин:

Таблица 4– Расчётная таблица

номер п/п

Затраты на 1 руб. продукции, коп.

Прибыль, тыс.р.

Расчётные данные 

хi

уi

x2

y∙x



1

77

1070

5929

82390

1012,86

2

77

1001

5929

77077

1012,86

3

81

789

6561

63909

851,74

4

82

779

6724

63878

811,46

5

89

606

7921

53934

529,51

6

96

221

9216

21216

247,55

Сумма

502

4466

42280

362404

4466

Среднее

83,66

744,33

7046,67

60400,67

744,33





Сначала вычислим значение коэффициента регрессии b:



Далее находим параметр a :

;

Следовательно, линейное уравнение регрессии будет выглядеть следующим образом: ,



Подставляя в это уравнение табличные значения х, вычислим табличные значения .



и так далее. Результаты приведены в последней колонке таблицы 4.

Дополним поле корреляции линией регрессии (рис. 2).



Рисунок 2 – Линейная регрессия по данным таблицы 4
Параметры нелинейных регрессий (степенной, показательной и т.д.) также находятся с помощью метода наименьших квадратов. Только необходимо сначала линеаризировать их, т.е. привести к линейному виду.

Степенная зависимость. Уравнение нелинейной степенной регрессии - . Для определения параметров  а  и  b  с помощью метода наименьших квадратов необходимо предварительно преобразовать степенную (нелинейную) зависимость в линейную – линеаризировать нелинейное уравнение регрессии. Для этого достаточно ее правую и левую части прологарифмировать:



Пусть    Тогда имеем



Применив МНК, находим



Значение параметра  а  находим в результате потенцирования а*:




Пример 2. В табл. 1.3 представлены статистические данные о расходах на питание и душевом доходе для девяти групп семей. Рассчитайте параметры уравнения степенной регрессии.

Необходимые расчёты приведены в таблице 1.4

 

 

 

 

 

Таблица 1.4

 

 

 

 

 

 

 

 

номер  группы

Расход на питание (у.д.е.)

Душевой доход (у.д.е.)

y*=lg (y)

x*=lg(x)



y*x*



х

у

1

628

433

2,6365

2,7980

7,8286

7,3768

418,7798

2

1577

616

2,7896

3,1978

10,2261

8,9206

690,1265

3

2659

900

2,9542

3,4247

11,7287

10,1174

916,2665

4

3701

1113

3,0465

3,5683

12,7329

10,8709

1096,307

5

4796

1305

3,1156

3,6809

13,5489

11,4682

1261,818

6

5926

1488

3,1726

3,7728

14,2337

11,9695

1415,292

7

7281

1645

3,2162

3,8622

14,9165

12,4214

1582,575

8

9350

1914

3,2819

3,9708

15,7673

13,0320

1812,568

9

18807

2411

3,3822

4,2743

18,2698

14,4566

2648,237

Сумма

 

 

27,5953

32,5498

119,252

100,633

 

Среднее

 

 

3,0661

3,6166

13,2503

11,1815

 

 

Находить значения  и  для такого уравнения мы уже умеем:



Заполнив табл. 1.5, рассчитаем значения  и :

 

,

.

Значение параметра  а  находим в результате потенцирования а*:

.

Таким образом, уравнение степенной регрессии будет иметь следующий вид:

.

Расчетные значения представлены в последнем столбце табл. 1.5.


Показательная зависимость. Уравнение нелинейной показательной регрессии - . Это уравнение линеаризируют аналогично степенной зависимости.

Логарифмическая зависимость. Уравнение нелинейной логарифмической регрессии - . Для определения параметров  а  и b  при данной зависимости также можно использовать МНК. Для этого достаточно уравнение регрессии   представить в виде



где 

В результате применения МНК получим




Гиперболическая зависимость. Уравнение нелинейной гиперболической регрессии - . При гиперболической зависимости параметры  а  и b находятся таким же образом, как и при линейной зависимости, но для уравнения регрессии  ,  где  

2.2 Показатели корреляции


При анализе можно рассчитывать среднюю ошибку аппроксимации – среднее отклонение расчетных значений от фактических:

.

Ее значение должно быть в интервале от 8 до 10  %. Если значение средней ошибки аппроксимации больше, то отклонение сильно большое, и использовать модель нецелесообразно.

Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида:

.

Коэффициент, использующий средние квадратические отклонения факторов называется коэффициентом корреляции и выражается формулой

.

Коэффициент корреляции характеризует тесноту или силу связи между переменными  х  и  у

При  имеет место положительная корреляция, т.е.  с увеличением (уменьшением) значений фактора (х) значение результативного признака (у) соответственно увеличивается (уменьшается). Такая корреляционная связь называется прямой. При  имеет место отрицательная корреляция, т.е. с увеличением (уменьшением) значений фактора (х) значения результативного признака (у)  соответственно уменьшаются (увеличиваются). Такая связь называется обратной.

Свойства коэффициента корреляции:

      коэффициент линейной корреляции изменяется в пределах от  - 1 до + 1;

       - связь между х и у отсутствует или не является линейной даже приближенно;

 
       - связь слабая;

      - связь средней тесноты;

    - связь тесная


    - связь очень тесная;

       - связь между х и у считается функциональной.

,

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме.

Для нелинейных регрессий определяют не коэффициент корреляции, а индекс корреляции:



где    ,

.

2.3. Коэффициент детерминации


Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям ), характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле

.

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Величина  показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной