ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.10.2023
Просмотров: 22
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
УТВЕРЖДАЮ:
ФИО
должность
ОБЗОР ПРОГРАММНОГО
ПАКЕТА SPSS.
НАЧАЛО РАБОТЫ
Для свободного использования в образовательных целях
Copyright
© Академия НАФИ. Москва
Все права защищены nafi.ru
ТЕМА 1
1.
Введение в количественные исследования
1.1.
Обзор основных понятий статистики
1.2.
Типы шкал
2.
Программный пакет SPSS и его возможности
2.1.
Запуск программы, интерфейс, принципы работы
2.2.
Создание файлов данных. Настройка переменных
ОГЛАВЛЕНИЕ
2
1.
ВВЕДЕНИЕ
В КОЛИЧЕСТВЕННЫЕ
ИССЛЕДОВАНИЯ
Общество
(Population)
Выборка
(Sample)
Человек
(Case)
СОЗНАНИЕ
ПОВЕДЕНИЕ
4
1. Введение в количественные исследования
ЧТО ИЗУЧАЮТ СОЦИАЛЬНЫЕ НАУКИ?
Общественное
поведение
Поведение
(бытие)
Сознание
Общественное
мнение
Признаки мнения
Признаки поведения
Индикаторы мнения
Индикаторы поведения
Фактографические
Оценочные
СБОР ДАННЫХ
ОБРАБОТКА ДАННЫХ
АНАЛИЗ ДАННЫХ
ОТ ТЕОРЕТИЧЕСКОЙ СОЦИОЛОГИИ К ЭМПИРИЧЕСКОЙ
1. Введение в количественные исследования
Вопросы анкеты
5
Свойства людей – это их физические, психические и социальные характеристики
(
признаки).
Социологов и маркетологов преимущественно интересуют
социальные характеристики:
сознание (мнение) и бытие
(поведение) людей, в случае
маркетинга – потребителей.
Анализ данных является одним из этапов исследования и включает проверку соответствия между эмпирическими данными и теоретической моделью изучаемого явления.
Переменная (признак) – некоторое общее для всех изучаемых объектов, например людей, свойство, конкретные проявления которого могут меняться от объекта к объекту.
Различные проявления признака для разных объектов называют
значениями. Значения переменной, которые она принимает для различных изучаемых объектов, приводят нас к необходимости рассматривать
распределение переменной.
6
ЧТО ТАКОЕ АНАЛИЗ ДАННЫХ?
Респондент
(num_ank)
Возраст
(AGE)
Пол
(GENDER)
Образование
(EDU)
Семейное
положение
(FAMILY)
1 21 1
3 1
2 34 2
2 2
3 19 1
3 3
4 52 1
4 2
5 46 2
5 3
Переменная
(variable)
Значение
Наблюдение
(case)
1. Введение в количественные исследования
1 = мужской
2 = женский
7
ПРИМЕР АНАЛИЗА ДАННЫХ О РАСПРЕДЕЛЕНИ ПЕРЕМЕННОЙ
Задача: проанализировать возраст работающего населения
Объект исследования: работающее (полная занятость) население страны
Признак (переменная): возраст (age)
Значения переменной: 18…70 лет
1. Введение в количественные исследования
Распределение значений переменной (distribution)
Данные – это результаты наблюдений, испытаний, накапливаемые с целью последующего изучения и анализа.
представляют собой отдельные значения признака, общее число которых конечно или счетно
(может быть подсчитано)
в отличие от дискретных данных, могут принимать любое значение в некотором интервале
Пример:
Пол респондента (GENDER):
1
= Мужской 2 = Женский
Пример:
Доход работника (INCOME):
100$..................100 000$+
8
КАКИЕ ДАННЫЕ АНАЛИЗИРУЕТ СОЦИОЛОГ ИЛИ МАРКЕТОЛОГ?
1. Введение в количественные исследования
ДИСКРЕТНЫЕ
ДАННЫЕ
НЕПРЕРЫВНЫЕ
ДАННЫЕ
Генеральная совокупность (population) – полная совокупность изучаемых объектов.
Выборка (sample) – часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения репрезентативных выводов о свойствах генеральной совокупности.
Репрезентативность выборки – это свойство выборки отражать генеральную совокупность с определенной погрешностью (ошибкой выборки).
Ошибка выборки — отклонение характеристик выборочной совокупности от характеристик генеральной совокупности.
9
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА
Генеральная совокупность
Выборочная совокупность
(выборка)
Все занятое население России
72,3 млн человек
1. Введение в количественные исследования
«Чтобы понять вкус супа, не обязательно съедать
всю кастрюлю – достаточно одной ложки»
500 чел.
1.1
ОБЗОР ОСНОВНЫХ
ПОНЯТИЙ
СТАТИСТИКИ
В количественных исследованиях признаки изучаются на основе статистики их распределения, распространенности в обществе или среди отдельных групп.
•
Частотное распределение признака (frequency distribution) – закономерность встречаемости разных его значений.
•
Частота (frequency) – количество наблюдений, в которых признак принимает определенное значение или находится в определенном интервале.
1.1. Обзор основных понятий статистики
1. МЕРЫ СРЕДНЕГО
УРОВНЯ
2. МЕРЫ РАССЕЯНИЯ
(ДИСПЕРСИИ)
3. МЕРЫ
РАСПРЕДЕЛЕНИЯ
•
Среднее
•
Мода
•
Медиана
Частотное распределение переменной (frequency distribution)
•
Дисперсия
•
Средне-квадратическое
(стандартное) отклонение
•
Стандартная ошибка
•
Размах
•
Асимметрия
•
Эксцесс
12
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Формула:
Кривая Гаусса:
•
Характеризуется тем, что крайние значения признака в нем встречаются редко, а значения, близкие к средней величине –
достаточно часто.
•
Некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга случайных факторов.
•
Имеет место, когда интересующее нас явление подвержено влиянию бесконечного числа случайных факторов, уравновешивающих друг друга.
•
Если действует какой-либо однонаправленный фактор, распределение может отличаться от нормального.
1.1. Обзор основных понятий статистики
13
•
Сумма всех значений, отнесенная к общему числу наблюдений
(очень чувствительна к выбросам).
•
Предполагает, что результат измерения задан в метрической (интервальной) шкале.
•
Важнейшее свойство средней величины заключается в том, что она выражает то общее, что присуще всем единицам исследуемой совокупности.
•
Типичность средней зависит от степени однородности совокупности. Сумма отклонений от среднего равна 0.
СРЕДНЕЕ (Mean)
n
X
X
i i
Среднее для
выборки
1.1. Обзор основных понятий статистики
14
•
Наиболее часто встречающееся значение переменной.
•
Обычно используется, когда набор значений ограничен и имеется их частое повторение.
•
Если в выборке встречаются одинаково часто два значения, распределение называют бимодальным, если присутствуют несколько часто встречающихся значений – мультимодальным.
•
Если все значения в распределении встречаются одинаково часто, то такая выборка не имеет моды.
МОДА (Mode)
Унимодальное
Бимодальное
Мультимодальное
обычно возникают,
если выборка имеет естественные обособленные подгруппы
1.1. Обзор основных понятий статистики
15
•
Значение, которое делит распределение пополам: половина значений больше медианы, половина – меньше. «Середина» распределения.
•
Когда есть сильные выбросы, лучше использовать медиану, а не среднее.
•
Имеет смысл для ранговых и количественных переменных, но не для качественных.
МЕДИАНА (Median)
1.1. Обзор основных понятий статистики
Количество чисел (значений) в ряду
Четное
Нечетное
Пример:
Возраст
5
опрошенных (AGE):
18 22 27 31 44
Пример:
Возраст
6
опрошенных (AGE):
18 22 27 31 44 55
(27+31):2 =
29
16
Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения. К появлению перекоса чувствительнее всего среднее значение.
ЗАРПЛАТА, руб.
ЧАСТОТА, чел.
Генеральный директор
1 000 000 1
Заместители директора
80 000 3
Менеджеры
40 000 10
Ассистенты
25 000 14
1.1. Обзор основных понятий статистики
Средняя з/п = 71 071 руб.
Медиана = 32 500 руб.
Мода = 25 000 руб.
Зарплата, руб.
Ч
ас
то
та
16
ДИСПЕРСИЯ (VARIANCE)
•
Дисперсия – это среднее арифметическое квадратов разностей полученных значений переменной и ее средним значением.
•
Измеряется в единицах переменной, возведённых в квадрат (не всегда удобно).
•
Показывает разброс значений признака относительно своего среднего арифметического значения, то есть насколько плотно значения признака группируются вокруг.
•
Чем больше разброс, тем сильнее варьируются ответы респондентов в данной группе, тем больше индивидуальные различия между респондентами.
•
Используется скорее в различных статистических тестах, а не в описательной статистике.
1.1. Обзор основных понятий статистики
а
1
, а
2
, а
3
… а
n
– данные,
S
– среднее арифметическое
n
– количество чисел в ряду
18
СТАНДАРТНОЕ ОТКЛОНЕНИЕ
(Standard Deviation)
s s
•
Среднеквадратическое или стандартное отклонение – мера разброса значений признака около среднего арифметического значения.
•
На практике вместо оценки дисперсии чаще используют производную от нее – стандартное отклонение (корень из дисперсии).
•
Более наглядно, т.к. его размерность соответствует размерности измеряемой величины (измеряется в
тех же единицах, что и переменная!)
1.1. Обзор основных понятий статистики
19
Variation ratio
– самая простая мера рассеяния (для номинальных переменных). Это “доля” объектов, не попадающих в модальную категорию.
Стандартная ошибка (S.E. Mean)
– определяется как стандартное отклонение, деленное на квадратный корень из объема выборки.
Используется для оценки того, насколько выборка отражает тенденции, наблюдаемые в генеральной совокупности.
Размах (Range)
– разница между наибольшим и наименьшим значениями в распределении (между мин и макс). Используется для порядковых переменных.
Пример: рейтинги успеваемости студентов.
Мода – 1 (женат/замужем)
Variation ratio = 1
– 0.58 = 0.42
Диапазон значений – от 0 до 1. Чем больше variation ratio
, тем больше дисперсия признака.
X
s
CV
100
Коэффициент вариации (CV)
– отношение стандартного отклонения к среднему арифметическому, выраженное в %.
Это относительная мера разброса значений признака.
1.1. Обзор основных понятий статистики
1 Женат/ замужем
58%
2 Холост/ не замужем
18%
3 Разведен/ разведена
9%
4
Незарегистр. / гражданский брак
3%
5 Вдовец/вдова
11%
Total=1586
20
ПРОЦЕНТИЛИ И КВАРТИЛИ
Квартили (quartiles) делят распределение на четыре части так, что в каждой из них оказывается поровну значений (2-й квартиль = медиана)
1- й квартиль = 25% процентиль
3- й квартиль = 75% процентиль
1.1. Обзор основных понятий статистики
21
1 2
3 4
5 6
Ч
а ст от а
Значение переменной
Квартиль 1
Квартиль 3
Медиана
АСИММЕТРИЯ
Коэффициент асимметрии А (skewness)
–
характеризует скошенность распределения в сторону больших или меньших значений признака. Это мера отклонения распределения частоты от симметричного
(нормального) распределения, то есть такого, у которого на одинаковом удалении от среднего значения по обе стороны выборки данных располагается одинаковое количество значений.
Коэффициент асимметрии
изменяется от минус до плюс бесконечности, для нормальных распределений A=0.
Если вершина асимметричного распределения сдвинута к меньшим значениям, то говорят о положительной
асимметрии (А>0), в противоположном случае — об отрицательной (А<0).
1.1. Обзор основных понятий статистики
22
Коэффициент эксцесса Е (kurtosis)
- характеризует степень островершинности распределения. Коэффициент указывает, является ли распределение пологим
(при большом значении коэффициента) или крутым.
ЭКСЦЕСС
1.1. Обзор основных понятий статистики
23
Для нормального распределения Е=0
Для островершинного Е>0
Для плосковершинного Е<0
1.2
ТИПЫ ШКАЛ
Шкала (Scale) – правило, определяющее, каким образом в процессе измерения каждому изучаемому объекту ставится в соответствие некоторое число или символы.
Шкалирование (Scaling) – процесс создания континуума
(последовательного ряда), на котором размещаются измеряемые объекты.
24
1.2.
Типы шкал
ОСНОВНЫЕ ПОНЯТИЯ
25
1.2.
Типы шкал
Номинальная шкала (Nominal)
― шкала наименований, которая состоит из значений признаков, не упорядоченных по степени возрастания или убывания.
Пример: национальность, профессия, семейное положение, пол и т.д.
Порядковая шкала (Ordinal)
― градации располагаются в определенном порядке относительно возрастания либо убывания интенсивности свойства.
Пример: переменная «Курение» со значениями (1 = некурящий; 2 = изредка курящий;
3 = интенсивно курящий; 4 = очень интенсивно курящий ). Переменная сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий — больше, чем умеренный курильщик и т.д., поэтому порядковая шкала.
Интервальные шкалы (Interval)
― основаны на процедурах, обеспечивающих равные или примерно равные расстояния между градациями переменной. В данном случае сравниваются не значения переменных, а расстояния между значениями.
Пример: температура, измеренная в градусах Цельсия. Можно не только сказать, что температура 30 градусов выше, чем 20 градусов, но и то, что увеличение температуры с 10 до 30 градусов вдвое больше увеличения температуры от 20 до 30 градусов.
Шкалы отношений (Метрические)
― соответствуют всем требованиям, предъявляемым к шкалам более низких классов.
Пример: возраст. Если Максу 30 лет, а Сергею 60, можно сказать, что Сергей вдвое старше
Макса.
26
1.2.
Типы шкал