ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3491

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

Глава

6

Подытожить

Процедура Подытожить наблюдения вычисляет значения статистик для переменных по
подгруппам

,

задаваемым категориями одной или нескольких группирующих переменных

.

Все уровни группирующей переменной представляются в таблице сопряженности

.

Вы

можете выбрать порядок

,

в котором будут выводиться значения статистик

.

Выводятся также

итожащие статистики для каждой переменной по всем категориям

.

Можно включить или

выключить вывод списка значений данных в каждой категории

.

При работе с большими

наборами данных Вы можете выводить в списке только

n

первых наблюдений

.

Пример.

Каков средний объем одной продажи продукта по регионам и типам клиентов

?

Вы

можете заметить

,

что средний объем одной продажи несколько выше в западном регионе

,

чем в других регионах

,

причем корпоративные клиенты в западном регионе обеспечивают

наивысший средний объем одной продажи

.

Статистики.

Сумма

,

число наблюдений

,

среднее значение

,

медиана

,

групповая медиана

,

стандартная ошибка среднего значения

,

минимальное и максимальное значения

,

размах

,

значение группирующей переменной для первой категории

,

значение группирующей

переменной для последней категории

,

стандартное отклонение

,

дисперсия

,

эксцесс

,

стандартная ошибка эксцесса

,

асимметрия

,

стандартная ошибка асимметрии

,

процент от

общей суммы

,

процент от общего

N

,

процент от суммы в

,

процент от

N

в

,

геометрическое

среднее

,

гармоническое среднее

.

Данные.

В качестве группирующих переменных используются категориальные

переменные

,

значения которых могут быть числовыми или строковыми

.

Количество

категорий должно быть разумно малым

.

Необходимо

,

чтобы остальные переменные могли

быть упорядочены

.

Предположения.

Некоторые статистики для подгрупп

,

например

,

среднее и стандартное

отклонение

,

основаны на теории нормального распределения и подходят для

количественных переменных с симметричными распределениями

.

Робастные статистики

(

такие

,

как медиана и размах

)

подходят для количественных переменных

,

которые могут не

удовлетворять предположению о нормальности

.

Как получить итожащие статистики по наблюдениям

E

Выберите в меню

:

Анализ > Отчеты > Итоги по наблюдениям...

© Copyright IBM Corporation 1989, 2011.

32


background image

33

Подытожить

Рисунок 6-1

Диалоговое окно Подытожить наблюдения

E

Выберите одну или несколько переменных

.

Дополнительно Вы можете

:

Выбрать одну или несколько группирующих переменных

,

чтобы разделять ваши данные

на подгруппы

.

Щелкнуть мышью по кнопке

Параметры

,

чтобы изменить название отчета

,

добавить

подпись под выведенными результатами или исключить наблюдения с пропущенными
значениями

.

Щелкнуть мышью по кнопке

Статистики

,

чтобы выбрать дополнительные статистики

.

Пометить флажком пункт

Выводить наблюдения

,

чтобы вывести список наблюдений в

каждой подгруппе

.

По умолчанию система показывает в списке только первые

100

наблюдений из файла

.

Вы можете увеличить или уменьшить эту величину с помощью

пункта

Ограничиться первыми

n

,

а также снять флажок с этого пункта

,

в результате чего

в списке будут представлены все наблюдения

.


background image

34

Глава 6

Параметры процедуры Подытожить наблюдения

Рисунок 6-2

Диалоговое окно Параметры

В процедуре Подытожить наблюдения можно изменить заголовок отчета или добавить
подпись

,

которая будет выведена под таблицей вывода

.

Можно управлять переходом на

следующую строку в заголовках и подписях

,

вводя

\n

там

,

где вы хотите разорвать строку

.

Вы можете также выбрать или отменить вывод подзаголовков для итогов

,

а также

управлять исключением и включением наблюдений с пропущенными значениями для
любой из переменных

,

используемых в анализе

.

Часто оказывается желательным при

выводе результатов отмечать пропущенные значения точками или звездочками

.

Можно

ввести символ

,

фразу или код

,

которые будут появляться на месте пропущенных значений

.

Если этого не сделать

,

то пропущенные значения не будут учитываться специальным

образом в выводе

.


background image

35

Подытожить

Статистики процедуры Подытожить наблюдения

Рисунок 6-3

Диалоговое окно Отчет Итожащие статистики

Вы можете выбрать одну или несколько из следующих статистик для подгрупп

,

рассчитываемых для переменных внутри каждой отдельной категории каждой
группирующей переменной

:

сумма

,

число наблюдений

,

среднее значение

,

медиана

,

групповая медиана

,

стандартная ошибка среднего значения

,

минимальное и максимальное

значения

,

размах

,

значение группирующей переменной для первой категории

,

значение

группирующей переменной для последней категории

,

стандартное отклонение

,

дисперсия

,

эксцесс

,

стандартная ошибка эксцесса

,

асимметрия

,

стандартная ошибка асимметрии

,

процент от общей суммы

,

процент от общего

N

,

процент от суммы в

,

процент от

N

в

,

геометрическое среднее

,

гармоническое среднее

.

В выводе статистики располагаются в

том порядке

,

в котором они указаны в списке Статистики в ячейках

.

Итожащие статистики

также выводятся для каждой переменной по всем категориям

.

Первое.

Выводит первое значение данных

,

встреченное в файле данных

.

Геометрическое среднее.

Корень

n-

й степени из произведения

n

значений наблюдений

.

Групповая медиана.

Медианы

,

вычисленные для данных

,

закодированных по

принадлежности к группам

.

Например

,

для данных о возрасте каждое значение для

30-

летних кодируется как

35,

каждое значение для

40-

летних кодируется как

45

и т

.

д

.;

групповая медиана

-

это медиана

,

вычисленная по закодированным данным

.

Гармоническое среднее.

Используется для оценки среднего объема группы

,

когда объемы

выборок в группах различаются

.

Гармоническое среднее

-

это общее число выборок

,

деленное на сумму величин

,

обратных объемам отдельных групп

.

Эксцесс.

Мера сгруппированности наблюдений вокруг центральной точки

.

Для

нормального распределения значение эксцесса равно

0.

Положительный эксцесс

указывает на то

,

что по отношению к нормальному распределению наблюдения для таких


background image

36

Глава 6

распределений сгруппированы более плотно около центра и имеют более тонкие хвосты до
экстремумов распределения

,

и более толстые хвосты в области экстремальных значений

.

Отрицательный эксцесс указывает на то

,

что по отношению к нормальному распределению

наблюдения для таких распределений сгруппированы менее плотно около центра и имеют
более толстые хвосты до экстремумов распределения

,

и более тонкие хвосты в области

экстремальных значений

.

Последнее.

Выводит последнее значение в файле данных

.

Максимум.

Наибольшее значение числовой переменной

.

Среднее.

Мера центральной тенденции

.

Арифметическое среднее

;

сумма

,

деленная на

число наблюдений

.

Медиана.

Значение

,

выше и ниже которого попадает по половине наблюдений

,

иначе

50-

й процентиль

.

Если число наблюдений четно

,

медиана есть арифметическое среднее

двух находящихся в середине значений

,

если выборку упорядочить по убыванию или

по возрастанию

.

Медиана представляет собой меру центральной тенденции

,

которая

нечувствительна к выбросам

,

в отличие от среднего значения

,

которое могут исказить

несколько экстремально больших или малых значений

.

Минимум.

Наименьшее значение числовой переменной

.

Количество.

Число случаев

(

наблюдений или записей

).

Процент от общего N.

Процент от общего количества наблюдений в каждой категории

.

Процент от общей суммы.

Процент от общей суммы в каждой категории

.

Диапазон.

Разность между наибольшим и наименьшим значениями числовой переменной

;

максимум минус минимум

.

Асимметрия.

Мера асимметрии распределения

.

Нормальное распределение симметрично

,

и для него асимметрия равна

0.

Распределение со значимой положительной асимметрией

имеет длинный хвост справа

.

Распределение со значимой отрицательной асимметрией

имеет длинный хвост слева

.

В качестве грубого правила можно сказать

,

что значение

асимметрии

,

более чем вдвое превышающее ее стандартную ошибку

,

указывает на наличие

асимметрии распределения

.

Стандартная ошибка эксцесса.

Отношение эксцесса к его стандартной ошибке можно

использовать как критерий нормальности

(

то есть

,

можно отвергнуть нормальность

,

если

это отношение меньше

–2

или больше

+2).

Большое положительное значение эксцесса

указывает

,

что хвосты распределения длиннее

,

чем у нормального

;

отрицательное значение

эксцесса указывает на более короткие хвосты

(

как у равномерного распределения

).

Стандартная ошибка асимметрии.

Отношение асимметрии к ее стандартной ошибке

можно использовать как критерий нормальности

(

то есть

,

можно отвергнуть нормальность

,

если это отношение меньше

,

чем

–2,

или больше

,

чем

+2).

Большое положительное

значение асимметрии указывает на длинный правый хвост

(

распределения

);

большое

отрицательное значение

-

на длинный левый хвост

.

Сумма.

Сумма или итог для всех значений по всем наблюдениям

,

имеющим

непропущенные значения

.