Файл: 1. Классификация признаков данных (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.10.2023

Просмотров: 638

Скачиваний: 19

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

ОГЛАВЛЕНИЕ

2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.

3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.

4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.

5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Размах

Дисперсия

Стандартное отклонение

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Ты никогда не выйдешь из моды, если ты — мода: что измеряют меры центральной тенденции

Мода, медиана, среднее значение

8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через IQR или sigma

10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.

Использование и интерпретация корреляции

11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.

15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.

16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?

17. Параметрические критерии. t-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.

18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.

23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.

28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Ты никогда не выйдешь из моды, если ты — мода: что измеряют меры центральной тенденции


К оглавлению

Для начала мы визуально отобразим все значения изученных нами показателей на гистограмме частот, где по оси Х будут откладываться полученные значения, а по оси Y количество этих значений.

Например, мы изучали какой рост встречается в определенной группе людей. По оси Х мы отразим все полученные нами переменные, а по оси Y – сколько людей имели тот или иной рост (это может быть отражено как столбцами, так и просто линией).



Изобразив график, мы можем начать изучение полученного нами распределения показателей. Этим занимается описательная статистика. Она включает два больших раздела. Нас может интересовать как что-то единое, общее для всех известных нам переменных (меры центральной тенденции), проще говоря — поможет ответить на вопрос, что объединяет наши данные, так и то, насколько эти переменные друг от друга отличаются (меры изменчивости).

Мода, медиана, среднее значение


Итак, меры центральной тенденции включают в себя множество понятий. Некоторые мы уже упоминали, о некоторых будем говорить в других статьях. Сегодня же мы опишем самые базовые.

К ним относятся:

Мода

Медиана

Среднее значение

Мода


Это понятие кажется нам интуитивно понятным благодаря далеко не медицинским знаниям и, грубо говоря, оно обозначает именно то, что мы все представляем, слыша это слово. Мода – это самое частое встречающееся значение в описываемой совокупности.

На графике моду обозначает самая высокая точка пика. Если два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений. Так описывается унимодальное распределение.




Примеры мод в унимодальном (слева) и бимодальных распределениях (справа)

Не стоит забывать, что мода не обязательно бывает одна. Моды может не быть вовсе, когда все значения встречаются одинаково часто. Либо мод может быть две и более. Такое распределение называется бимодальным или полимодальным соответственно.

В конце еще раз отметим, что мода — это значение признака, а не его частота. Например, модой на имена среди авторов данной статьи является имя Александр, а не цифра 2

Медиана


Это понятие тоже известно нам всем еще со школы. Что-то из геометрии. Вспоминаете? Так же как там, в статистике она делит значения на прямой ровно пополам. То есть слева и справа от медианы будут отложены одинаковое количество значений. При этом не важно, есть ли выбросы и симметрично ли распределение.

Выброс — экстремально малое или большое значение переменной, выбивающееся из общей картины.


Среднее значение


Опять все просто и все всё понимают. Ну не тема, а сплошное удовольствие. Среднее – это результат деления суммы всех значений на количество этих значений. Тут уже очень важна симметричность и выбросы, потому что, как все знают, средняя температура и зарплата по больнице всегда очень неплохие.



На величину среднего влияет каждое отдельное значение, а также количество всех полученных значений. Поэтому среднее весьма чувствительно к выбросам и нивелировать их способна только огромная выборка, что может быть накладно. Главное преимущество медианы в ее устойчивости к выбросам — аномально большим или малым значениям, так как при их появлении будет учитываться не значение признака, а лишь количество этих значений.

  • К мерам центральной тенденции относятся: мода, медиана, и среднее значение.

  • Мода – это самое частое встречающееся значение в описываемой совокупности. Чаще всего мода используется при описании номинативных переменных.

  • Медиана — это такое число, при значении которого половина из элементов выборки больше него, а другая половина меньше. Используется в медицинской статистике чаще всего, так как устойчива к выбросам и не так требовательна к размерам выборки, как среднее.

  • Среднее – это результат деления суммы всех значений на количество этих значений. Чувствительно к выбросам, и потому используется тогда, когда учет этих выбросов важен.

7. Стандартизированное распределение (z-распределение) и его свойства. Для чего используется? Напишите формулу для нахождения z-оценки. Придумайте пример для нахождения стандартизированного распределения, визуализируйте полученный результат
К оглавлению

Давайте представим такую ситуацию: вы написали тест по статистике и получили за него 76 баллов из 100 Насколько это результат хорош относительно других слушателей курса? Это может быть, как лучший результат, так и одна из самых низких оценок. Предположим, что мы знаем, что средняя оценка за этот тест — 70 баллов. Отлично! Значит вы справились лучше среднего. Но мы уже говорили, что, описывая распределение только с помощью меры центральной тенденции, можно угодить в ловушку. Если среднеквадратичное отклонение нашего распределения равно 3 (σ=3), то большинство оценок находится в диапазоне 67–73 балла. И результат в 76 баллов в этом контексте будет среди лучших оценок. Однако если оценка пришла из другого распределения, скажем, со среднеквадратичным отклонением 12 (σ=12), то это значит, что большинство сдававших набрали от 58 до 82 баллов. И вы среди этого большинства. Таким образом, относительная позиция значения в распределении действительно зависит и от среднего, и от среднеквадратичного отклонения. А значение переменной само по себе не несет много информации. В прошлых главах мы говорили о среднем арифметическом и среднеквадратичном отклонении в контексте описания распределений наших переменных. А теперь мы попробуем использовать эти понятия для того, чтобы описать отдельные значения с помощью z-оценок. Это способ выразить любое значение переменной в количестве среднеквадратичных отклонений от среднего распределения. С помощью z-оценок мы можем стандартизировать распределение — выразить все значения в терминах дистанции от среднего. Поэтому z-оценка еще называется стандартизированной. Стандартизированная оценка (z-оценка) — это относительная мера, которая показывает, на сколько среднеквадратичных отклонений наблюдаемое значение отличается от среднего значения распределения. Знак z-оценки показывает, находится ли значение левее среднего (–) или правее среднего (+).

Выразим z-оценку формулой для генеральной совокупности:



И для выборки:



В числителе у нас находится отклонение значения от среднего. А разделив его на среднеквадратичное отклонение, мы как раз находим расстояние от значения до среднего в единицах среднеквадратичных отклонений.
Можно еще услышать, когда говорят, что значение находится на расстоянии «сколько-то сигм» от среднего. Кстати, зная z-оценку, среднее и среднеквадратичное отклонение, можно легко восстановить и оригинальное значение. Для генеральной совокупности:



Для выборки:



Давайте попробуем рассчитать z-оценку для X=95, принадлежащего генеральной совокупности с μ=86 и σ=7

z=(X–μ)/σ=(95−86)/7=9/7=1.29

Таким образом, мы можем сказать, что наблюдение X=95 находится на расстоянии 1.29 среднеквадратичного отклонения выше среднего.

А теперь давайте по оценке найдем оригинальное значение. Мы знаем, что z=–1.50, μ=60 и σ=8. Восстанавливаем значение по формуле:

X=μ+zσ=60+(–1.50∗8)=60–12=48

Если мы превратим все значения переменной в распределении в z-оценки, то мы получим z-распеределение или стандартизированное распределение. Такое распределение сохранит форму оригинального распределения, но среднее в нем будет равно нулю, а среднеквадратичное отклонение — единице.

Представьте, что нам нужно сравнить результаты тестирования двух групп студентов, которые сдавали разные экзамены по английскому языку. Первая группа писала тест, оцениваемый по шкале от 0 до 9, а вторая — от 0 до 120 С теми студентами, которые набрали максимальное количество баллов или наоборот умудрились получить 0 — все просто. Их оценки мы можем сравнить друг с другом. А дальше начинаются вопросы — лучше ли оценка 60 из 120 чем 5 из 9? Тут нам и помогут стандартизированные распределения. После того как мы найдем z-оценку для каждого оригинального значения переменной в двух группах, мы сможем сравнить оценки между собой.

Z-распределение обладает и важными свойствами. Через z-оценки мы можем описать пропорции нормального распределения:

Если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки — то есть самые типичные для нее значения. Знание этих пропорций пригодится и при разговоре о тестировании гипотез, когда мы будем оценивать вероятность случайного получения некоторых значений.