ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3659
Скачиваний: 4
Глава
4
Исследовать
Процедура Исследовать вычисляет итожащие статистики и выводит диаграммы как для
всех наблюдений
,
так и отдельно для групп наблюдений
.
У этой процедуры много полезных
способов применения
:
с ее помощью производится отслеживание данных
,
идентификация
выбросов
,
описание
,
проверка предположений и описание различий между группами
наблюдений
.
Отслеживание данных может показать наличие необычных значений
,
экстремальных значений
,
разрывов в данных или других особенностей
.
Процедура
Исследовать позволяет определить
,
подходят ли для анализа Ваших данных статистические
методы
,
которые Вы собираетесь использовать
.
Результаты процедуры Исследовать могут
показать
,
что необходимо провести преобразование данных
,
если применение выбранного
метода требует нормально распределенных данных
.
Или Вы можете решить
,
что надо
воспользоваться непараметрическими критериями
.
Пример.
Рассмотрим распределение времени
,
необходимого крысам на изучение
лабиринта
,
при применении четырех различных схем кормления
.
Для каждой из четырех
групп можно посмотреть
,
является ли распределение времени приближенно нормальным
,
и проверить
,
совпадают ли четыре дисперсии
.
Можно выделить наблюдения
,
которым
соответствуют пять наименьших и пять наибольших значений времени
.
Ящичные
диаграммы и диаграммы
“
ствол
-
лист
”
графически подытоживают информацию о
распределении времени на изучение для каждой группы
.
Статистики и графики.
Среднее значение
,
медиана
, 5%-
е усеченное среднее
,
стандартная
ошибка
,
дисперсия
,
стандартное отклонение
,
минимальное и максимальное значения
переменных
,
размах
,
межквартильный размах
,
асимметрия
,
эксцесс
,
стандартные ошибки
асимметрии и эксцесса
,
доверительный интервал для среднего с задаваемым уровнем
,
процентили
,
робастные оценки центральной тенденции
(
М
-
оценки Хубера
,
Эндрюса
,
Хемпеля и Тьюки
),
пять наименьших и пять наибольших значений переменных
,
статистика
Колмогорова
-
Смирнова с уровнем значимости Лильефорса для проверки на нормальность
,
статистика Шапиро
-
Уилкса
.
Ящичные диаграммы
,
диаграммы
“
ствол
-
лист
”,
гистограммы
,
нормальные вероятностные графики
,
диаграммы разброса по уровням с критерием Ливиня
и возможностью задать преобразование данных
.
Данные.
Процедура Исследовать используется для анализа количественных переменных
,
заданных в интервальной шкале или шкале отношений
.
Факторная переменная
(
используемая для разбиения наблюдений на группы
)
должна иметь разумное число
различных значений
(
категорий
).
Эти значения могут быть числовыми или короткими
текстовыми
.
Переменная в поле Метить значениями используется для того
,
чтобы ее
значениями метить выбросы в ящичных диаграммах
.
Она может быть короткой текстовой
,
длинной текстовой
(
первые
15
байтов
)
или числовой
.
Предположения.
Распределение исследуемых данных не обязательно должно быть
симметричным или нормальным
.
© Copyright IBM Corporation 1989, 2011.
17
18
Глава 4
Как Исследовать данные
E
Выберите в меню
:
Анализ > Описательные статистики > Разведочный анализ...
Рисунок 4-1
Диалоговое окно “Исследовать”
E
Выберите одну или несколько зависимых переменных
.
Дополнительно Вы можете
:
Выбрать одну или несколько факторных переменных
,
значения которых зададут
разбиение наблюдений на группы
.
Выбрать идентификационную переменную
,
чтобы метить наблюдения
.
Щелкнуть мышью по кнопке
Статистики
,
чтобы задать вывод робастных оценок
,
выбросов
,
процентилей
,
частотных таблиц
.
Щелкнуть мышью по кнопке
Графики
и задать построение гистограмм
,
графиков и
критериев для проверки нормальности
,
а также диаграмм разброса по уровням с
критерием Ливиня
.
Щелкнуть мышью по кнопке
Параметры
и задать способ работы с пропущенными
значениями
.
19
Исследовать
Статистики процедуры Исследовать
Рисунок 4-2
Диалоговое окно Исследовать: Статистики
Описательные статистики.
Эти характеристики центральной тенденции и разброса
выводятся по умолчанию
.
Характеристики центральной тенденции описывают положение
распределения
;
они включают среднее значение
,
медиану и
5%-
е усеченное среднее
.
Характеристики разброса отражают степень различия значений исследуемых данных
;
они включают стандартную ошибку
,
дисперсию
,
стандартное отклонение
,
минимальное
и максимальное значения переменных
,
размах и межквартильный размах
.
Описательные
статистики включают также характеристики формы распределения
,
такие как асимметрия и
эксцесс
,
которые выводятся вместе со своими стандартными ошибками
.
Выводится также
95%
доверительный интервал для среднего
,
можно задать иное значение доверительного
уровня
.
М-оценки.
Робастные альтернативы выборочным среднему и медиане для оценивания
положения
.
Они различаются весами
,
приписываемыми наблюдениям
.
Выводятся
следующие оценки
:
М
-
оценка Хубера
,
волновая оценка Эндрюса
,
нисходящая М
-
оценка
Хампеля
,
бивес
-
оценка Тьюки
.
Выбросы.
Выводятся пять наименьших и пять наибольших значений с метками
наблюдений
.
Процентили.
Выводятся значения
5%-
го
, 10%-
го
, 25%-
го
, 50%-
го
, 75%-
го
, 90%-
го и
95%-
го
процентилей
.
20
Глава 4
Графики процедуры Исследовать
Рисунок 4-3
Диалоговое окно Исследовать: Графики
Ящичные диаграммы.
Эти параметры управляют выводом ящичных диаграмм в случае
,
когда вы анализируете более одной зависимой переменной
.
Выбор
Уровни фактора вместе
формирует отдельный вывод для каждой зависимой переменной
.
В рамках производимого
вывода ящичные диаграммы выводятся для каждой из групп
,
определяемых значениями
факторной переменной
.
Выбор
Зависимые вместе
формирует отдельный вывод для каждой
из групп
,
определяемых факторной переменной
.
В рамках вывода ящичные диаграммы
выводятся рядом друг с другом для каждой зависимой переменной
.
Это особенно удобно
,
когда различные переменные представляют одну и ту же характеристику
,
измеренную в
разные моменты времени
.
Описательные.
Группа Описательные позволяет задать построение диаграмм
“
ствол
-
лист
”
и гистограмм
.
Графики и критерии для проверки нормальности.
Вывод нормального вероятностного
графика и нормального вероятностного графика с удаленным трендом
.
Осуществляется
также вывод значений статистики критерия Колмогорова
-
Смирнова с уровнем значимости
Лильефорса для проверки на нормальность
.
Если заданы нецелочисленные веса
,
то
статистика Шапиро
-
Уилкса вычисляется при взвешенном объеме выборки от
3
до
50.
Если
веса не заданы или целочисленны
,
то эта статистика рассчитывается
,
когда взвешенный
объем выборки находится в пределах от
3
до
5 000.
Разброс по уровням с критерием Ливиня.
Позволяет задать преобразование данных
для диаграмм с разбросом
(
межквартильными размахами групп
)
и уровнем
(
медианами
групп
)
по осям
.
Для всех диаграмм этого типа выводятся коэффициент наклона линии
регрессии и значение робастного критерия однородности дисперсии Ливиня
.
Если
выбрано преобразование данных
,
то критерий Ливиня вычисляется для преобразованных
данных
.
Если не выбрана ни одна факторная переменная
,
то диаграммы не строятся
.
Выбор пункта
Оценка степени
позволяет изобразить на графике натуральные логарифмы
межквартильных размахов против натуральных логарифмов медиан для всех групп вместе с
оценкой степенного преобразования
,
которое делает равными дисперсии во всех группах
.
21
Исследовать
Диаграмма с разбросом и уровнем по осям помогает определить показатель степени для
преобразования
,
которое стабилизирует
(
делает равными
)
дисперсии по группам
.
Выбор
пункта
Преобразование
позволяет задать одно из степенных преобразований
(
возможно
,
вы захотите последовать рекомендации пункта Оценка степени
)
и получить диаграммы
,
построенные для преобразованных данных
.
На график выводятся межквартильный размах
и медиана преобразованных данных
.
Чтобы построить графики для исходных данных
,
выберите пункт
Без преобразования
.
Это соответствует степенному преобразованию с
показателем степени
,
равным
1.
Степенные преобразования в процедуре Исследовать
Для диаграмм с разбросом и уровнем по осям возможны степенные преобразования
.
Чтобы
осуществить преобразование данных
,
Вам необходимо выбрать степень производимого
преобразования
.
Вы можете выбрать одну из следующих альтернатив
:
Нат.логарифм.
Натуральный логарифм
(
преобразование
)
Это установлено по
умолчанию
.
1/кв.корень.
Для каждого значения данных вычисляется величина
,
обратная
квадратному корню из этого значения
.
Обр. величина.
Для каждого значения данных вычисляется обратная ему величина
.
Кв. корень.
Вычисляется квадратный корень каждого значения данных
.
Квадрат.
Каждое значение данных возводится в квадрат
.
Куб.
Каждое значение данных возводится в куб
.
Параметры процедуры Исследовать
Рисунок 4-4
Диалоговое окно Исследовать: Параметры
Пропущенные значения.
Эта группа параметров позволяет управлять обработкой
пропущенных значений
.
Исключать целиком.
На всех этапах анализа исключаются наблюдения
,
имеющие
пропущенные значения какой
-
либо зависимой или факторной переменной
.
Это
установлено по умолчанию
.