ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3650
Скачиваний: 4
7
Информация о данных
Центральная тенденция и разброс
Для количественных переменных доступны следующие статистики
:
Среднее.
Мера центральной тенденции
.
Арифметическое среднее
;
сумма
,
деленная на
число наблюдений
.
Стандартное отклонение.
Мера разброса вокруг среднего
.
При нормальном распределении
68%
наблюдений укладываются в одно стандартное отклонение от среднего
,
и
95% -
в два стандартных отклонения
.
Если
,
например
,
средний возраст равен
45
годам со
стандартным отклонением
10,
то
95%
наблюдений должны оказаться между
25
и
65
годами
при нормальном распределении
.
Квартили.
Значения
25-
го
, 50-
го и
75-
го процентилей
.
Примечание
:
можно временно изменить шкалу измерений переменной
(
и
,
следовательно
,
изменить итожащие статистики
,
выводимые для этой переменной
)
в списке исходных
переменных на вкладке Переменные
.
Глава
2
Частоты
Процедура Частоты дает возможность вычислять статистики и строить диаграммы
,
полезные для описания многих типов переменных
.
Процедура Частоты
-
это хорошее
начало в исследовании данных
.
При построении таблиц частот и столбиковых диаграмм можно задать порядок значений
анализируемых переменных
-
по возрастанию или убыванию значений или частот
.
Если
количество значений переменной слишком велико
,
вывод таблицы частот может быть
запрещен
.
В диаграммах можно использовать частоты
(
по умолчанию
)
или проценты
.
Пример.
Как распределены клиенты по типу организаций
,
в которых они работают
?
Из
вывода можно узнать
,
что
37.5%
клиентов работают в государственных организациях
,
24.9%
работают в коммерческих организациях
, 28.1% -
в университетах и институтах
,
и
9.4%
в сфере здравоохранения
.
Для непрерывных
,
количественных данных
,
например
,
дохода от продаж
,
можно определить
,
что средний доход одной продажи
- $3.576,
а
стандартное отклонение
- $1.078.
Статистики и графики.
Частоты
,
проценты
,
кумулятивные проценты
,
среднее значение
,
медиана
,
мода
,
сумма
,
стандартное отклонение
,
дисперсия
,
размах
,
минимальное и
максимальное значения переменных
,
стандартная ошибка среднего значения
,
асимметрия
,
эксцесс
,
стандартные ошибки оценок асимметрии и эксцесса
,
квартили
,
определяемые
пользователем процентили
,
столбиковые диаграммы
,
круговые диаграммы и гистограммы
.
Данные.
Для кодировки значений категориальных переменных
(
номинальных или
порядковых
)
используйте числа или строки
.
Предположения.
Частоты и проценты дают полезные описания данных
,
независимо от
вида распределения
,
особенно для переменных с упорядоченными и неупорядоченными
категориями
.
Большинство необязательных итожащих статистик
,
например
,
среднее
значение и стандартное отклонение
,
основаны на теории нормального распределения
и применимы к количественным переменным с симметричным распределением
.
Робастные статистики
,
такие
,
как медиана
,
квартили и процентили
,
подходят для анализа
числовых переменных
,
которые могут не удовлетворять предположению о нормальности
распределения
.
Как вывести частотную таблицу
E
Выберите в меню
:
Анализ > Описательные статистики > Частоты...
© Copyright IBM Corporation 1989, 2011.
8
9
Частоты
Рисунок 2-1
Главное диалоговое окно «Частоты»
E
Выберите одну или несколько категориальных или количественных переменных
.
Дополнительно Вы можете
:
Щелкнуть мышью по кнопке
Статистики
,
чтобы задать вычисление описательных
статистик для количественных переменных
.
Щелкнуть мышью по кнопке
Диаграммы
,
чтобы задать вывод столбиковых диаграмм
,
круговых диаграмм и гистограмм
.
Щелкнуть мышью по кнопке
Формат
,
чтобы задать порядок
,
в котором будут выводиться
результаты
.
Статистики в процедуре Частоты
Рисунок 2-2
Диалоговое окно Частоты: Статистики
10
Глава 2
Значения процентилей.
Значение процентиля
-
это значение количественной переменной
,
которое разделяет упорядоченные данные на группы таким образом
,
что определенный
процент наблюдений имеет значения этой количественной переменной меньше значения
процентиля
,
а другой процент наблюдений имеет значения этой количественной переменной
больше значения процентиля
.
Квартили
-
это
25%-
е
, 50%-
е и
75%-
е процентили
,
которые
разделяют наблюдения на четыре группы одинакового объема
.
Если вы хотите получить
разбивку на равные группы
,
число которых отлично от четырех
,
то воспользуйтесь пунктом
Процентили для n равных групп
.
Можно также задать отдельные процентили
(
например
,
95%-
й процентиль
-
значение
,
меньше которого значения
95%
наблюдений
).
Расположение (центральная тенденция).
Статистики
,
описывающие расположения
распределений
,
включают среднее
,
медиану
,
моду и сумму всех значений
.
Среднее.
Мера центральной тенденции
.
Арифметическое среднее
;
сумма
,
деленная на
число наблюдений
.
Медиана.
Значение
,
выше и ниже которого попадает по половине наблюдений
,
иначе
50-
й процентиль
.
Если число наблюдений четно
,
медиана есть арифметическое среднее
двух находящихся в середине значений
,
если выборку упорядочить по убыванию или
по возрастанию
.
Медиана представляет собой меру центральной тенденции
,
которая
нечувствительна к выбросам
,
в отличие от среднего значения
,
которое могут исказить
несколько экстремально больших или малых значений
.
Мода.
Чаще всего встречающееся значение
.
Если таких значений несколько
,
каждое из
них является модой
.
Процедура Частоты выдает только наименьшее из этих значений
.
Сумма.
Сумма или итог для всех значений по всем наблюдениям
,
имеющим
непропущенные значения
.
Разброс.
Статистики
,
которые измеряют вариацию или разброс в данных
,
включают
стандартное отклонение
,
дисперсию
,
размах
,
минимальное значение
,
максимальное
значение и стандартную ошибку среднего
.
Стандартное отклонение.
Мера разброса вокруг среднего
.
При нормальном
распределении
68%
наблюдений укладываются в одно стандартное отклонение от
среднего
,
и
95% -
в два стандартных отклонения
.
Если
,
например
,
средний возраст
равен
45
годам со стандартным отклонением
10,
то
95%
наблюдений должны оказаться
между
25
и
65
годами при нормальном распределении
.
Дисперсия.
Мера разброса относительно среднего значения
.
Равна сумме квадратов
отклонений от среднего
,
деленной на число
,
на единицу меньшее числа наблюдений
.
Дисперсия измеряется в единицах
,
которые равны квадратам единиц измерения самой
переменной
.
Диапазон.
Разность между наибольшим и наименьшим значениями числовой
переменной
;
максимум минус минимум
.
Минимум.
Наименьшее значение числовой переменной
.
Максимум.
Наибольшее значение числовой переменной
.
стандартная ошибка среднего.
Мера того
,
как сильно может отличаться значение
среднего от выборки к выборке
,
извлекаемое из одного и того же распределения
.
Можно применять для грубого сравнения наблюденного среднего с гипотетическим
значением
(
то есть можно заключить
,
что два значения различаются
,
если отношение
их разности к стандартному отклонению меньше
-2
или больше
+2).
11
Частоты
Распределение.
Асимметрия и эксцесс
-
это статистики
,
описывающие форму и
симметричность распределения
.
Эти статистики выводятся вместе с их стандартными
ошибками
.
Асимметрия.
Мера асимметрии распределения
.
Нормальное распределение
симметрично
,
и для него асимметрия равна
0.
Распределение со значимой
положительной асимметрией имеет длинный хвост справа
.
Распределение со
значимой отрицательной асимметрией имеет длинный хвост слева
.
В качестве грубого
правила можно сказать
,
что значение асимметрии
,
более чем вдвое превышающее ее
стандартную ошибку
,
указывает на наличие асимметрии распределения
.
Эксцесс.
Мера сгруппированности наблюдений вокруг центральной точки
.
Для
нормального распределения значение эксцесса равно
0.
Положительный эксцесс
указывает на то
,
что по отношению к нормальному распределению наблюдения для
таких распределений сгруппированы более плотно около центра и имеют более
тонкие хвосты до экстремумов распределения
,
и более толстые хвосты в области
экстремальных значений
.
Отрицательный эксцесс указывает на то
,
что по отношению
к нормальному распределению наблюдения для таких распределений сгруппированы
менее плотно около центра и имеют более толстые хвосты до экстремумов
распределения
,
и более тонкие хвосты в области экстремальных значений
.
Значения - центры групп.
Если значения анализируемых данных представлены средними
точками групп
(
например
,
возраст всех людей от
30
до
40
лет закодирован числом
35),
можно пометить этот элемент
,
чтобы получить оценки медианы и процентилей исходных
,
несгруппированных данных
.
Диаграммы в процедуре Частоты
Рисунок 2-3
Диалоговое окно Частоты: Диаграммы
Тип диаграммы.
Круговые диаграммы представляют вклад отдельных частей в целое
.
Каждый сектор круговой диаграммы соответствует группе
,
заданной одной группирующей
переменной
.
Столбиковая диаграмма выводит число наблюдений для каждой категории
,
определяемой значением
,
в виде отдельного столбика
,
что позволяет визуально сравнивать
категории
.
Гистограммы также состоят из столбиков
;
но каждый из них соответствует
одинаковому интервалу значений исследуемой переменной
.
Высота каждого столбика