Файл: Статистика-пособие.doc

а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (2) и сопоставляется c t_ТАБЛ.

. (2)

Табличное значение t_ТАБЛ находится по таблице распределения t-критерия Стьюдента (см. приложение 2) при уровне значимости α=1-β и числе степеней свободы ν=n–2. Если t_РАСЧ> t_ТАБЛ_,то r считается значимым, а связь между х и у – реальной. В противном случае (t_РАСЧ< t_ТАБЛ) считается, что связь между х и у отсутствует, и значение r, отличное от нуля, получено случайно.

В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам (2) и (2): = 0,3073/2,8284 = 0,1086; = 0,9516/0,1086 = 8,7591. При вероятности 95% t_табл=2,306, а при вероятности 99% t_табл=3,355, значит, t_РАСЧ> t_ТАБЛ, что дает возможность считать линейный коэффициент корреляции r = 0,9516 значимым.

5. Подбор уравнения регрессии представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.

Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими. Они обычно обозначаются (читается: «игрек, выравненный по х») и рассматриваются как функция от х, т.е. = f(x). (Иногда для простоты записи вместо пишут .)

Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, — одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.

Для аналитической связи между х и у могут использоваться следующие простые виды уравнений:

– прямая линия; – парабола;

– гипербола; – показательная функция;

– логарифмическая функция и др.

Обычно зависимость, выражаемую уравнением прямой, называют линейной (или прямолинейной), а все остальные — криволинейными зависимостями.

Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным.

Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.

Поставив данное условие, легко определить, при каких значениях , и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в методических указаниях к теме 4 «Ряды динамики», поэтому, воспользуемся формулой (2) для нахождения параметров теоретической линии регрессии в нашей задаче, заменив параметр t на x.

(2)

Исходные данные и все расчеты необходимых сумм представим в таблице 12.

Таблица 12. Вспомогательные расчеты для решения задачи

i	x	y	xx*	yx*	y'
1	12	28	144	336	15	5184	7225
2	16	40	256	640	23,5	3600	5852,25
3	25	38	625	950	42,625	3844	3291,891
4	38	65	1444	2470	70,25	1225	885,0625
5	43	80	1849	3440	80,875	400	365,7656
6	55	101	3025	5555	106,375	1	40,64063
7	60	95	3600	5700	117	25	289
8	80	125	6400	10000	159,5	625	3540,25
9	91	183	8281	16653	182,875	6889	6868,266
10	100	245	10000	24500	202	21025	10404
Итого	520	1000	35624	70244	1000	42818	38762,125

; ; ;

; ; ; =100–52*2,125 = – 10,5.

Отсюда искомая линия регрессии:=–10,5+2,125x. Для иллюстрации построим график эмпирической (маркеры-кружочки) и теоретической (маркеры-квадратики) линий регрессии.

Рис.6. График эмпирической и теоретической линий регрессии.

6. Теоретическое корреляционное отношение представляет собой универсальный показатель тесноты связи. Измерить тесноту связи между коррелируемыми величинами – это значит определить, насколько вариация результативного признака обусловлена вариацией факторного признака. Ранее были рассмотрены показатели, с помощью которых можно выявить наличие корреляционной связи между двумя признаками x и y и измерить тесноту этой связи: коэффициент Фехнера и линейный коэффициент корреляции.

Наряду с ними существует универсальный показатель – корреляционное отношение (или коэффициент корреляции по Пирсону), применимое ко всем случаям корреляционной зависимости независимо от формы этой связи. Следует различать эмпирическое и теоретическое корреляционные отношения. Эмпирическое корреляционное отношение рассчитывается на основе правила сложения дисперсий как корень квадратный из отношения межгрупповой дисперсии к общей дисперсии, т.е.

. (2)

Теоретическое корреляционное отношение определяется на основе выравненных (теоретических) значений результативного признака , рассчитанных по уравнению регрессии. представляет собой относительную величину, получаемую в результате сравнения среднего квадратического отклонения в ряду теоретических значений результативного признака со средним квадратическим отклонением в ряду эмпирических значений. Если обозначить дисперсию эмпирического ряда игреков через , а теоретического ряда – , то каждая из них выразится формулами:

, (2)

. (2)

Сравнивая вторую дисперсию с первой, получим теоретический коэффициент детерминации:

, (2)

который показывает, какую долю в общей дисперсии результативного признака занимает дисперсия, выражающая влияние вариации фактора x на вариацию y. Извлекая корень квадратный из коэффициента детерминации, получаем теоретическое корреляционное отношение:

. (2)

Оно может находиться в пределах от 0 до 1. Чем ближе его значение к 1, тем теснее связь между вариацией y и x. При <0,3 говорят о малой зависимости между коррелируемыми величинами, при 0,3< <0,6 – о средней, при 0,6< <0,8 – о зависимости выше средней, при >0,8 – о большой, сильной зависимости. Корреляционное отношение применимо как для парной, так и для множественной корреляции независимо от формы связи. При линейной зависимости .

В нашей задаче расчет необходимых сумм для использования в формуле (2) приведен в последних двух столбцах таблицы 12. Тогда теоретический коэффициент детерминации по формуле (2) равен:²_теор = 38762,125 / 42818 = 0,9053, то есть дисперсия, выражающая влияние вариации фактора x на вариацию y, составляет 90,53%.

Теоретическое корреляционное отношение по формуле (2) равно: _теор= = 0,9515, что совпадает со значением линейного коэффициента корреляции и, следовательно, можно говорить о большой, сильной зависимости между коррелируемыми величинами.

Контрольные задания по теме

На основе исходных данных контрольных заданий по теме 2 определить наличие и характер корреляционной связи между признаками x и y 6-ю методами.

При-знак	Вариант
При-знак	1	2	3	4	5	6	7	8	9	10
x	Рост	Доход	Возраст	IQ	Доход	Возраст	рост/вес	Стаж	Доход	IQ
y	Вес	Вес	Доход	Доход	Тетрадь	рост/вес	Кол-во друзей	Доход	Кол-во друзей	Время решения

Часть 2. Социально-экономическая статистика

Тема 1. Социально-демографическая статистика

Методические указания по теме

Задача 1. Численность населения города составляла 3000 тыс. чел. на начало года. На конец года она возросла до 3050 тыс. чел. Число родившихся за год составило 35 тыс.чел., число умерших – 15 тыс.чел. Определить:

1) коэффициенты естественного, механического и общего движения населения, установить его тип;

2) перспективную численность населения через 4 года при условии, что коэффициент общего движения населения будет: а) сохраняться на прежнем уровне; б) снижаться ежегодно на 1%₀.

Решение. Численность населения (S) в конкретном пункте существенно меняется с течением времени, поэтому, рассчитывается ее среднегодовое значение по разным формулам средних величин в зависимости от полноты исходных данных. В нашей задаче среднегодовая численность определяется по формуле средней арифметической простой (2) как полусумма S в начале и конце года: = (S_н + S_к)/2 = (3000 + 3050)/2 = 3025 (тыс. чел.).

Изменение численности населения за счет рождений и смертей называется естественным движением населения, которое характеризуется рядом коэффициентов: рождаемости (2), смертности (2) и естественного движения (2):

К_р = N / *1000%₀, (2)

К_см = M / *1000%₀, (2)

К_ЕД = (N – M)/ *1000%₀= К_р – К_см, (2)

где N – число родившихся за год, M – число умерших за год.

В нашей задаче по формуле (2) получаем: К_р = 35 / 3025 * 1000%₀ = 11,57%₀, то есть на каждую 1000 населения приходится 11 младенцев.

По формуле (2) получаем: К_см = 15 / 3025*1000%₀= 4,96%₀, то есть на каждую 1000 населения приходится 5 умерших.

И, наконец, по формуле (2) получаем: К_ЕД = К_р – К_см,= 11,57%₀– 4,96%₀ = 6,61%₀, то есть рождаемость превышает смертность на 6,61 промилле (это естественный прирост населения).

Движением населения может происходить и за счет миграции, показывающей, куда и откуда, в каком количестве происходит перемещение населения в стране и в международном масштабе. Основными показателями миграции населения являются: сальдо миграции (2) и коэффициент механического движения населения (2):

∆V = V⁺ – V^–, (2)

К_МД= ∆V / *1000%₀, (2)

где V⁺ и V^– – численность, соответственно, прибывшего и выбывшего на постоянное жительство населения.

В нашей задаче число прибывших и выбывших неизвестно, но можно найти сальдо миграции, так как данные о миграционном сальдо вместе с данными об естественном движении населения служат основой для расчета коэффициента общего движения населения (2):

К_ОД = К_ЕД + К_МД = (S_к – S_н)/ *1000%₀. (2)

В нашей задаче по формуле (2) получаем: К_ОД =(3050 – 3000) / 3025 * 1000%₀= 16,53%₀, тогда К_МД = К_ОД – К_ЕД = 16,53%₀ – 6,61%₀ = 9,92%₀, то есть численность прибывших в город больше выбывших на 9,92 промилле (это механический приток или прирост населения).