ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3673
Скачиваний: 4
Глава
6
Подытожить
Процедура Подытожить наблюдения вычисляет значения статистик для переменных по
подгруппам
,
задаваемым категориями одной или нескольких группирующих переменных
.
Все уровни группирующей переменной представляются в таблице сопряженности
.
Вы
можете выбрать порядок
,
в котором будут выводиться значения статистик
.
Выводятся также
итожащие статистики для каждой переменной по всем категориям
.
Можно включить или
выключить вывод списка значений данных в каждой категории
.
При работе с большими
наборами данных Вы можете выводить в списке только
n
первых наблюдений
.
Пример.
Каков средний объем одной продажи продукта по регионам и типам клиентов
?
Вы
можете заметить
,
что средний объем одной продажи несколько выше в западном регионе
,
чем в других регионах
,
причем корпоративные клиенты в западном регионе обеспечивают
наивысший средний объем одной продажи
.
Статистики.
Сумма
,
число наблюдений
,
среднее значение
,
медиана
,
групповая медиана
,
стандартная ошибка среднего значения
,
минимальное и максимальное значения
,
размах
,
значение группирующей переменной для первой категории
,
значение группирующей
переменной для последней категории
,
стандартное отклонение
,
дисперсия
,
эксцесс
,
стандартная ошибка эксцесса
,
асимметрия
,
стандартная ошибка асимметрии
,
процент от
общей суммы
,
процент от общего
N
,
процент от суммы в
,
процент от
N
в
,
геометрическое
среднее
,
гармоническое среднее
.
Данные.
В качестве группирующих переменных используются категориальные
переменные
,
значения которых могут быть числовыми или строковыми
.
Количество
категорий должно быть разумно малым
.
Необходимо
,
чтобы остальные переменные могли
быть упорядочены
.
Предположения.
Некоторые статистики для подгрупп
,
например
,
среднее и стандартное
отклонение
,
основаны на теории нормального распределения и подходят для
количественных переменных с симметричными распределениями
.
Робастные статистики
(
такие
,
как медиана и размах
)
подходят для количественных переменных
,
которые могут не
удовлетворять предположению о нормальности
.
Как получить итожащие статистики по наблюдениям
E
Выберите в меню
:
Анализ > Отчеты > Итоги по наблюдениям...
© Copyright IBM Corporation 1989, 2011.
32
33
Подытожить
Рисунок 6-1
Диалоговое окно Подытожить наблюдения
E
Выберите одну или несколько переменных
.
Дополнительно Вы можете
:
Выбрать одну или несколько группирующих переменных
,
чтобы разделять ваши данные
на подгруппы
.
Щелкнуть мышью по кнопке
Параметры
,
чтобы изменить название отчета
,
добавить
подпись под выведенными результатами или исключить наблюдения с пропущенными
значениями
.
Щелкнуть мышью по кнопке
Статистики
,
чтобы выбрать дополнительные статистики
.
Пометить флажком пункт
Выводить наблюдения
,
чтобы вывести список наблюдений в
каждой подгруппе
.
По умолчанию система показывает в списке только первые
100
наблюдений из файла
.
Вы можете увеличить или уменьшить эту величину с помощью
пункта
Ограничиться первыми
n
,
а также снять флажок с этого пункта
,
в результате чего
в списке будут представлены все наблюдения
.
34
Глава 6
Параметры процедуры Подытожить наблюдения
Рисунок 6-2
Диалоговое окно Параметры
В процедуре Подытожить наблюдения можно изменить заголовок отчета или добавить
подпись
,
которая будет выведена под таблицей вывода
.
Можно управлять переходом на
следующую строку в заголовках и подписях
,
вводя
\n
там
,
где вы хотите разорвать строку
.
Вы можете также выбрать или отменить вывод подзаголовков для итогов
,
а также
управлять исключением и включением наблюдений с пропущенными значениями для
любой из переменных
,
используемых в анализе
.
Часто оказывается желательным при
выводе результатов отмечать пропущенные значения точками или звездочками
.
Можно
ввести символ
,
фразу или код
,
которые будут появляться на месте пропущенных значений
.
Если этого не сделать
,
то пропущенные значения не будут учитываться специальным
образом в выводе
.
35
Подытожить
Статистики процедуры Подытожить наблюдения
Рисунок 6-3
Диалоговое окно Отчет Итожащие статистики
Вы можете выбрать одну или несколько из следующих статистик для подгрупп
,
рассчитываемых для переменных внутри каждой отдельной категории каждой
группирующей переменной
:
сумма
,
число наблюдений
,
среднее значение
,
медиана
,
групповая медиана
,
стандартная ошибка среднего значения
,
минимальное и максимальное
значения
,
размах
,
значение группирующей переменной для первой категории
,
значение
группирующей переменной для последней категории
,
стандартное отклонение
,
дисперсия
,
эксцесс
,
стандартная ошибка эксцесса
,
асимметрия
,
стандартная ошибка асимметрии
,
процент от общей суммы
,
процент от общего
N
,
процент от суммы в
,
процент от
N
в
,
геометрическое среднее
,
гармоническое среднее
.
В выводе статистики располагаются в
том порядке
,
в котором они указаны в списке Статистики в ячейках
.
Итожащие статистики
также выводятся для каждой переменной по всем категориям
.
Первое.
Выводит первое значение данных
,
встреченное в файле данных
.
Геометрическое среднее.
Корень
n-
й степени из произведения
n
значений наблюдений
.
Групповая медиана.
Медианы
,
вычисленные для данных
,
закодированных по
принадлежности к группам
.
Например
,
для данных о возрасте каждое значение для
30-
летних кодируется как
35,
каждое значение для
40-
летних кодируется как
45
и т
.
д
.;
групповая медиана
-
это медиана
,
вычисленная по закодированным данным
.
Гармоническое среднее.
Используется для оценки среднего объема группы
,
когда объемы
выборок в группах различаются
.
Гармоническое среднее
-
это общее число выборок
,
деленное на сумму величин
,
обратных объемам отдельных групп
.
Эксцесс.
Мера сгруппированности наблюдений вокруг центральной точки
.
Для
нормального распределения значение эксцесса равно
0.
Положительный эксцесс
указывает на то
,
что по отношению к нормальному распределению наблюдения для таких
36
Глава 6
распределений сгруппированы более плотно около центра и имеют более тонкие хвосты до
экстремумов распределения
,
и более толстые хвосты в области экстремальных значений
.
Отрицательный эксцесс указывает на то
,
что по отношению к нормальному распределению
наблюдения для таких распределений сгруппированы менее плотно около центра и имеют
более толстые хвосты до экстремумов распределения
,
и более тонкие хвосты в области
экстремальных значений
.
Последнее.
Выводит последнее значение в файле данных
.
Максимум.
Наибольшее значение числовой переменной
.
Среднее.
Мера центральной тенденции
.
Арифметическое среднее
;
сумма
,
деленная на
число наблюдений
.
Медиана.
Значение
,
выше и ниже которого попадает по половине наблюдений
,
иначе
50-
й процентиль
.
Если число наблюдений четно
,
медиана есть арифметическое среднее
двух находящихся в середине значений
,
если выборку упорядочить по убыванию или
по возрастанию
.
Медиана представляет собой меру центральной тенденции
,
которая
нечувствительна к выбросам
,
в отличие от среднего значения
,
которое могут исказить
несколько экстремально больших или малых значений
.
Минимум.
Наименьшее значение числовой переменной
.
Количество.
Число случаев
(
наблюдений или записей
).
Процент от общего N.
Процент от общего количества наблюдений в каждой категории
.
Процент от общей суммы.
Процент от общей суммы в каждой категории
.
Диапазон.
Разность между наибольшим и наименьшим значениями числовой переменной
;
максимум минус минимум
.
Асимметрия.
Мера асимметрии распределения
.
Нормальное распределение симметрично
,
и для него асимметрия равна
0.
Распределение со значимой положительной асимметрией
имеет длинный хвост справа
.
Распределение со значимой отрицательной асимметрией
имеет длинный хвост слева
.
В качестве грубого правила можно сказать
,
что значение
асимметрии
,
более чем вдвое превышающее ее стандартную ошибку
,
указывает на наличие
асимметрии распределения
.
Стандартная ошибка эксцесса.
Отношение эксцесса к его стандартной ошибке можно
использовать как критерий нормальности
(
то есть
,
можно отвергнуть нормальность
,
если
это отношение меньше
–2
или больше
+2).
Большое положительное значение эксцесса
указывает
,
что хвосты распределения длиннее
,
чем у нормального
;
отрицательное значение
эксцесса указывает на более короткие хвосты
(
как у равномерного распределения
).
Стандартная ошибка асимметрии.
Отношение асимметрии к ее стандартной ошибке
можно использовать как критерий нормальности
(
то есть
,
можно отвергнуть нормальность
,
если это отношение меньше
,
чем
–2,
или больше
,
чем
+2).
Большое положительное
значение асимметрии указывает на длинный правый хвост
(
распределения
);
большое
отрицательное значение
-
на длинный левый хвост
.
Сумма.
Сумма или итог для всех значений по всем наблюдениям
,
имеющим
непропущенные значения
.