ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3480

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

7

Информация о данных

Центральная тенденция и разброс

Для количественных переменных доступны следующие статистики

:

Среднее.

Мера центральной тенденции

.

Арифметическое среднее

;

сумма

,

деленная на

число наблюдений

.

Стандартное отклонение.

Мера разброса вокруг среднего

.

При нормальном распределении

68%

наблюдений укладываются в одно стандартное отклонение от среднего

,

и

95% -

в два стандартных отклонения

.

Если

,

например

,

средний возраст равен

45

годам со

стандартным отклонением

10,

то

95%

наблюдений должны оказаться между

25

и

65

годами

при нормальном распределении

.

Квартили.

Значения

25-

го

, 50-

го и

75-

го процентилей

.

Примечание

:

можно временно изменить шкалу измерений переменной

(

и

,

следовательно

,

изменить итожащие статистики

,

выводимые для этой переменной

)

в списке исходных

переменных на вкладке Переменные

.


background image

Глава

2

Частоты

Процедура Частоты дает возможность вычислять статистики и строить диаграммы

,

полезные для описания многих типов переменных

.

Процедура Частоты

-

это хорошее

начало в исследовании данных

.

При построении таблиц частот и столбиковых диаграмм можно задать порядок значений

анализируемых переменных

-

по возрастанию или убыванию значений или частот

.

Если

количество значений переменной слишком велико

,

вывод таблицы частот может быть

запрещен

.

В диаграммах можно использовать частоты

(

по умолчанию

)

или проценты

.

Пример.

Как распределены клиенты по типу организаций

,

в которых они работают

?

Из

вывода можно узнать

,

что

37.5%

клиентов работают в государственных организациях

,

24.9%

работают в коммерческих организациях

, 28.1% -

в университетах и институтах

,

и

9.4%

в сфере здравоохранения

.

Для непрерывных

,

количественных данных

,

например

,

дохода от продаж

,

можно определить

,

что средний доход одной продажи

- $3.576,

а

стандартное отклонение

- $1.078.

Статистики и графики.

Частоты

,

проценты

,

кумулятивные проценты

,

среднее значение

,

медиана

,

мода

,

сумма

,

стандартное отклонение

,

дисперсия

,

размах

,

минимальное и

максимальное значения переменных

,

стандартная ошибка среднего значения

,

асимметрия

,

эксцесс

,

стандартные ошибки оценок асимметрии и эксцесса

,

квартили

,

определяемые

пользователем процентили

,

столбиковые диаграммы

,

круговые диаграммы и гистограммы

.

Данные.

Для кодировки значений категориальных переменных

(

номинальных или

порядковых

)

используйте числа или строки

.

Предположения.

Частоты и проценты дают полезные описания данных

,

независимо от

вида распределения

,

особенно для переменных с упорядоченными и неупорядоченными

категориями

.

Большинство необязательных итожащих статистик

,

например

,

среднее

значение и стандартное отклонение

,

основаны на теории нормального распределения

и применимы к количественным переменным с симметричным распределением

.

Робастные статистики

,

такие

,

как медиана

,

квартили и процентили

,

подходят для анализа

числовых переменных

,

которые могут не удовлетворять предположению о нормальности

распределения

.

Как вывести частотную таблицу

E

Выберите в меню

:

Анализ > Описательные статистики > Частоты...

© Copyright IBM Corporation 1989, 2011.

8


background image

9

Частоты

Рисунок 2-1

Главное диалоговое окно «Частоты»

E

Выберите одну или несколько категориальных или количественных переменных

.

Дополнительно Вы можете

:

Щелкнуть мышью по кнопке

Статистики

,

чтобы задать вычисление описательных

статистик для количественных переменных

.

Щелкнуть мышью по кнопке

Диаграммы

,

чтобы задать вывод столбиковых диаграмм

,

круговых диаграмм и гистограмм

.

Щелкнуть мышью по кнопке

Формат

,

чтобы задать порядок

,

в котором будут выводиться

результаты

.

Статистики в процедуре Частоты

Рисунок 2-2

Диалоговое окно Частоты: Статистики


background image

10

Глава 2

Значения процентилей.

Значение процентиля

-

это значение количественной переменной

,

которое разделяет упорядоченные данные на группы таким образом

,

что определенный

процент наблюдений имеет значения этой количественной переменной меньше значения
процентиля

,

а другой процент наблюдений имеет значения этой количественной переменной

больше значения процентиля

.

Квартили

-

это

25%-

е

, 50%-

е и

75%-

е процентили

,

которые

разделяют наблюдения на четыре группы одинакового объема

.

Если вы хотите получить

разбивку на равные группы

,

число которых отлично от четырех

,

то воспользуйтесь пунктом

Процентили для n равных групп

.

Можно также задать отдельные процентили

(

например

,

95%-

й процентиль

-

значение

,

меньше которого значения

95%

наблюдений

).

Расположение (центральная тенденция).

Статистики

,

описывающие расположения

распределений

,

включают среднее

,

медиану

,

моду и сумму всех значений

.

Среднее.

Мера центральной тенденции

.

Арифметическое среднее

;

сумма

,

деленная на

число наблюдений

.

Медиана.

Значение

,

выше и ниже которого попадает по половине наблюдений

,

иначе

50-

й процентиль

.

Если число наблюдений четно

,

медиана есть арифметическое среднее

двух находящихся в середине значений

,

если выборку упорядочить по убыванию или

по возрастанию

.

Медиана представляет собой меру центральной тенденции

,

которая

нечувствительна к выбросам

,

в отличие от среднего значения

,

которое могут исказить

несколько экстремально больших или малых значений

.

Мода.

Чаще всего встречающееся значение

.

Если таких значений несколько

,

каждое из

них является модой

.

Процедура Частоты выдает только наименьшее из этих значений

.

Сумма.

Сумма или итог для всех значений по всем наблюдениям

,

имеющим

непропущенные значения

.

Разброс.

Статистики

,

которые измеряют вариацию или разброс в данных

,

включают

стандартное отклонение

,

дисперсию

,

размах

,

минимальное значение

,

максимальное

значение и стандартную ошибку среднего

.

Стандартное отклонение.

Мера разброса вокруг среднего

.

При нормальном

распределении

68%

наблюдений укладываются в одно стандартное отклонение от

среднего

,

и

95% -

в два стандартных отклонения

.

Если

,

например

,

средний возраст

равен

45

годам со стандартным отклонением

10,

то

95%

наблюдений должны оказаться

между

25

и

65

годами при нормальном распределении

.

Дисперсия.

Мера разброса относительно среднего значения

.

Равна сумме квадратов

отклонений от среднего

,

деленной на число

,

на единицу меньшее числа наблюдений

.

Дисперсия измеряется в единицах

,

которые равны квадратам единиц измерения самой

переменной

.

Диапазон.

Разность между наибольшим и наименьшим значениями числовой

переменной

;

максимум минус минимум

.

Минимум.

Наименьшее значение числовой переменной

.

Максимум.

Наибольшее значение числовой переменной

.

стандартная ошибка среднего.

Мера того

,

как сильно может отличаться значение

среднего от выборки к выборке

,

извлекаемое из одного и того же распределения

.

Можно применять для грубого сравнения наблюденного среднего с гипотетическим
значением

(

то есть можно заключить

,

что два значения различаются

,

если отношение

их разности к стандартному отклонению меньше

-2

или больше

+2).


background image

11

Частоты

Распределение.

Асимметрия и эксцесс

-

это статистики

,

описывающие форму и

симметричность распределения

.

Эти статистики выводятся вместе с их стандартными

ошибками

.

Асимметрия.

Мера асимметрии распределения

.

Нормальное распределение

симметрично

,

и для него асимметрия равна

0.

Распределение со значимой

положительной асимметрией имеет длинный хвост справа

.

Распределение со

значимой отрицательной асимметрией имеет длинный хвост слева

.

В качестве грубого

правила можно сказать

,

что значение асимметрии

,

более чем вдвое превышающее ее

стандартную ошибку

,

указывает на наличие асимметрии распределения

.

Эксцесс.

Мера сгруппированности наблюдений вокруг центральной точки

.

Для

нормального распределения значение эксцесса равно

0.

Положительный эксцесс

указывает на то

,

что по отношению к нормальному распределению наблюдения для

таких распределений сгруппированы более плотно около центра и имеют более
тонкие хвосты до экстремумов распределения

,

и более толстые хвосты в области

экстремальных значений

.

Отрицательный эксцесс указывает на то

,

что по отношению

к нормальному распределению наблюдения для таких распределений сгруппированы
менее плотно около центра и имеют более толстые хвосты до экстремумов
распределения

,

и более тонкие хвосты в области экстремальных значений

.

Значения - центры групп.

Если значения анализируемых данных представлены средними

точками групп

(

например

,

возраст всех людей от

30

до

40

лет закодирован числом

35),

можно пометить этот элемент

,

чтобы получить оценки медианы и процентилей исходных

,

несгруппированных данных

.

Диаграммы в процедуре Частоты

Рисунок 2-3

Диалоговое окно Частоты: Диаграммы

Тип диаграммы.

Круговые диаграммы представляют вклад отдельных частей в целое

.

Каждый сектор круговой диаграммы соответствует группе

,

заданной одной группирующей

переменной

.

Столбиковая диаграмма выводит число наблюдений для каждой категории

,

определяемой значением

,

в виде отдельного столбика

,

что позволяет визуально сравнивать

категории

.

Гистограммы также состоят из столбиков

;

но каждый из них соответствует

одинаковому интервалу значений исследуемой переменной

.

Высота каждого столбика