Файл: 1. Классификация признаков данных (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.10.2023

Просмотров: 624

Скачиваний: 19

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

ОГЛАВЛЕНИЕ

2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.

3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных.

4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков.

5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Размах

Дисперсия

Стандартное отклонение

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере.

Ты никогда не выйдешь из моды, если ты — мода: что измеряют меры центральной тенденции

Мода, медиана, среднее значение

8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через IQR или sigma

10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции.

Использование и интерпретация корреляции

11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.

15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение.

16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?

17. Параметрические критерии. t-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы.

18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое.

23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции.

28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма.


ОГЛАВЛЕНИЕ


ОГЛАВЛЕНИЕ 1

1. Классификация признаков данных: (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные. Объяснить суть, привести примеры 3

2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки. 6

3. Частотные распределения. Разница между нормальным и равномерным распределением. Приведите пример визуализации графика распределения для своего набора данных. 10

4. Визуализация данных. Линейный график, столбчатые диаграммы, гистограммы, диаграммы рассеяния. Изобразить графически, описать суть графиков. 16

5. Меры вариативности. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере. 20

Размах 20

Дисперсия 22

Стандартное отклонение 23

Глоссарий: 23

6. Меры центральной тенденции. Перечислить основные типы, написать формулу для нахождения. Какие меры вариативности подвержены выбросам в данных? Подтвердите выводы на примере. 24

Ты никогда не выйдешь из моды, если ты — мода: что измеряют меры центральной тенденции 24

Мода, медиана, среднее значение 25

Мода 25

Медиана 26

Среднее значение 26

7. Стандартизированное распределение (z-распределение) и его свойства. Для чего используется? Напишите формулу для нахождения z-оценки. Придумайте пример для нахождения стандартизированного распределения, визуализируйте полученный результат 27

8. Определение выброса в данных. Приведите примеры конвенций для определения верхней и нижней границы нормальных значений данных. Через IQR или sigma 31

9. Стратегии работы с пропущенными значениями в данных. Приведите примеры действий для разных данных (заполнение средним значением, медианой, использование вектора значений, удаление столбцов с данными) 32

10. Определение корреляции в данных. Свойства коэффициента корреляции. Формула для нахождения коэффициента корреляции. 41

Свойства коэффициента корреляции 42

1. Изменяется от −1 до 1 42

2. Положительный коэффициент корреляции свидетельствует о прямой зависимости. 43

3. Отрицательный коэффициент корреляции свидетельствует об обратной зависимости. 44

X 45

Y 45

Использование и интерпретация корреляции 49

11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел. 52

12. Разделение выборки на обучающую и валидационную. Какое отношение данных обучающей выборки к валидационной обычно используется, для чего используются выборки? Опишите процесс стратификации данных, объясните для чего он используется. 53

13. Постановка и тестирование гипотез. Что такое нулевая и альтернативная гипотеза? Виды альтернативных гипотез. Что такое уровень статистической значимости α? Определение критической области. Ошибка первого и второго рода. 54

Шаг 1: Формулировка основной и альтернативной гипотезы 55

Шаг 2: Выбор уровня значимости 55

Шаг 3: Определение статистического критерия 57

Шаг 4: Формулировка правила принятия решения 58

Шаг 5: Принятие решения 59

Альтернативная гипотеза, альтернатива 60

Альфа-уровень 61

Критическая область проверки гипотезы 61

Ошибка I рода 61

Ошибка II рода 62

14. Метрики качества моделей машинного обучения. Изобразите матрицу ошибок для бинарной классификации. Напишите формулу для вычисления True Positive Rate и False Negative Rate. Метрика Accuracy. В каких случаях её применение даёт ложный результат о качестве модели? Что такое ROC-кривая. Что такое AUC ROC. 63

15. Сформулируйте определения параметрических и непараметрических критериев при тестировании гипотез. Критерий согласия хи-квадрат. Определение и применение. 65

16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности? 68

17. Параметрические критерии. t-статистика. Напишите определение и формулу для вычисления. Понятие степеней свободы. 71

18. Одновыборочный и парный t-тест. Объяснить разницу. Придумать пример на тестирование гипотезы одним из тестов, вычислить t-наблюдаемое. 72

19. Линейная регрессия. Нахождение уравнения регрессии. Напишите формулу для поиска коэффициентов линейного уравнения. Приведите практический пример и постройте график уравнения регрессии по собственным данным. 73

20. Оценка качества регрессии. Использование среднеквадратической ошибки. Для чего используется коэффициент детерминации R2? Приведите практический пример и найдите коэффициент детерминации для собственных данных. Сделайте вывод о разбросе данных 75

21. Логистическая регрессия. Для решения каких задач применяется алгоритм? Напишите определение шанса. Выведите логистическую функцию, постройте её график. Приведите пример нахождения оценки вероятности для своего линейного уравнения. 77

22. Алгоритм Naïve Bayes. Для решения каких задач применяется алгоритм? Сформулируйте формулу теоремы Байеса. Объясните смысл составных частей. Почему алгоритм называется «наивным»? Приведите практический пример применения алгоритма Naïve Bayes для задачи фильтрации СПАМ-сообщений. 79

23. Машина опорных векторов. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Понятие гиперплоскости. Напишите наиболее распространенные ядерные функции. 81

24. Алгоритм решающего дерева. Для решения каких задач применяется алгоритм? Объясните смысл алгоритма. Из чего состоит дерево решений? Формула прироста информации. Напишите формулы для критериев информативности при решении задачи классификации. Какая функция потерь чаще всего используется при решении задачи регрессии. 82

25. Переобучение решающего дерева. Приведите графический пример переобучения модели. Какой результат точности обучения мы получим для переобученной модели на тестовой и валидационной выборке? Критерии останова для решающего дерева. 83

26. Алгоритм KNN. Для решения каких задач применяется алгоритм? Формула нахождения Евклидового расстояния. Опишите порядок действий при работе алгоритма. (https://proglib.io/p/metod-k-blizhayshih-sosedey-k-nearest-neighbour-2021-07-19 ) 84

27. Алгоритм Random Forest. Для решения каких задач применяется алгоритм? Формула итогового классификатора. Порядок действий в алгоритме. Назовите критерии расщепления. Назовите важные параметры для работы алгоритма и объясните их суть. 86

28. Алгоритм Градиентного Бустинга. Для решения каких задач применяется алгоритм? Объясните принцип работы алгоритма. Основные параметры при работе алгоритма. Популярные реализации алгоритма. 90



Вопросы
1. Классификация признаков данных: (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные. Объяснить суть, привести примеры
К оглавлению

  1. Качественные признаки (категориальные) - описывают качественные характеристики объектов и не имеют порядка или структуры. О пол, цвет глаз, марка автомобиля и т.д. они могут быть номинальными и порядковыми.

  • Номинальные признаки - это качественные переменные без внутренней структуры, они просто описывают различные категории или группы, которые не имеют определенного порядка. Например,

  • Порядковые признаки - это качественные переменные, которые можно упорядочить по убыванию или возрастанию. Например, уровень образования (начальное, среднее, высшее), оценки (отлично, хорошо, удовлетворительно), категории здоровья (очень плохое, плохое, удовлетворительное, хорошее, отличное) и т.д.

  • Количественные признаки - это переменные, которые измеряются в числовом значении. Они могут быть дискретными и непрерывными.

    • Дискретные признаки - это переменные, которые могут принимать только целочисленные значения. Например, количество детей в семье, количество лет, проведенных на работе, количество пассажиров на борту самолета и т.д.

    • Непрерывные признаки - это переменные, которые могут принимать любые значения в некотором диапазоне. Например, рост, вес, доход, температура и т.д.

    Относительные признаки отражают соотношения между количественными признаками и измеряют их в процентах или долях. Они выражают отношения между двумя количественными признаками.

    Например, доля женщин в общем числе сотрудников в компании, доля дохода, потраченного на аренду жилья, относительная масса вещества в смеси и т.д.
    Интервальные признаки представляют собой числовые признаки, для которых определены единицы измерения, и которые имеют порядковую структуру. Интервальные признаки позволяют проводить операции над значениями, такие как сложение, вычитание, умножение и деление, а также измерять их относительные различия. Однако, при этом нельзя делать выводы о наличии абсолютного нуля.



    Примеры интервальных признаков:

    • Температура в градусах Цельсия

    • Время в секундах, минутах или часах

    • Год выпуска автомобиля

    • Рост и вес человека

    • Размеры одежды или обуви


    Дихотомические признаки, или бинарные признаки, могут принимать только два значения: 0 или 1. Они часто используются в машинном обучении для задач бинарной классификации, когда нужно разделить объекты на две категории.

    Примеры дихотомических признаков:

    • Пол: мужской (1) или женский (0)

    • Наличие болезни: болен (1) или здоров (0)

    • Наличие депозита на счету: есть (1) или нет (0)

    • Результат теста: сдал (1)

    • или не сдал (0)

    • Флаг: включен (1) или выключен (0)





    2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.


    К оглавлению

    Генеральная совокупность — это совокупность всех объектов или наблюдений, относительно которых исследователь намерен делать выводы при решении конкретной задачи. В ее состав включаются все объекты, которые подлежат изучению.

    Объем генеральной совокупности может быть очень велик, и на практике рассмотреть все ее элементы не представляется возможным. Поэтому обычно из генеральной совокупности извлекаются выборки, на основе анализа которых аналитик пытается сделать вывод о свойствах всей совокупности, скрытых в ней закономерностях, действующих правилах и т.д. При этом выборки должны быть репрезентативными.

    В статистике и анализе данных выборка — это подмножество наблюдений генеральной совокупности, отобранных с целью изучения и анализа с помощью специальной процедуры (которая также называется выборкой), чтобы впоследствии обобщить полученные знания на всю совокупность. Выборки должны обладать свойством репрезентативности.

    Причины, по которым анализируют выборки, а не всю совокупность, могут быть следующими:

    • объем генеральной совокупности может быть очень велик, а её анализ сложен в вычислительном плане (особенно, если нельзя использовать масштабируемые алгоритмы);

    • получить доступ ко всем элементам совокупности очень сложно, или вообще невозможно (например, опросить население всего города — кто-то уехал, кто-то просто отвечать не хочет, поэтому проводят выборочный опрос);

    • при использовании методов машинного обучения требуется использовать несколько множеств: обучающее, тестовое и валидационное, которые тоже являются выборками из исходного набора данных.

    Выборки бывают:

    • Смещённые и не смещённые. Смещёнными называются выборки, структурные характеристики которых (среднее, математическое ожидание, дисперсия, среднеквадратическое отклонение) значимо отличаются (смещены) от соответствующих структурных характеристик совокупности. Значимость отличия проверяется специальными статистическими критериями (например, F-критерий Фишера). Использование смещённых выборок для исследования совокупности не имеет смысла. Чтобы получить несмещённую выборку нужно правильно выбрать алгоритм её формирования.

    • Случайными и детерминированными. В первом случае генерируется множество случайных значений и из совокупности извлекаются записи с соответствующими номерами. В детерминированной выборке извлекают сплошную последовательность наблюдений между заданными номерами, или удовлетворяющих некоторому условию (например, все клиенты с доходом больше 50 000 рублей). На практике чаще используют случайную выборку, поскольку она более соответствует вероятностному характеру большинства аналитических моделей. Кроме этого используя детерминированный подход выше вероятность получить смещённую выборку.

    • Сплошные и стратифицированные. В сплошной выборке наблюдения могут извлекаться из любой области генеральной совокупности. В стратифицированной выборке сначала делят совокупность на слои (называемые стратами) по какому- либо признаку, а затем производят выборку из каждого слоя независимо.

    • С возвратом и без возврата. При выборке с возвратом, извлеченные наблюдения остаются в генеральной совокупности доступными для повторного выбора (в этом случае в выборке могут оказаться одинаковые наблюдения — дубликаты). В противном случае любое наблюдение может быть извлечено из совокупности только один раз.

    • Зависимые и независимые. Если каждому наблюдению из одной выборки соответствует одно и только одно наблюдение из другой, то такие выборки называются зависимыми. Если это условие не выполняется, то выборки независимы. Очевидно, что зависимые выборки всегда должны иметь одинаковый объем, а для независимых это не обязательно.


    К выборкам, используемым в машинном обучении, могут предъявляться дополнительные требования. Например, для обучения нейронных сетей требуется, чтобы число обучающих примеров было как минимум в два-три раза больше, чем число весов сети. При обучении классификаторов число примеров выборки должно быть много больше числа классов.

    Если объем исходной совокупности недостаточен для формирования обучающей выборки требуемого объема, то применяются специальные методы отбора (например, перекрёстная проверка).

    Под репрезентативностью в статистике и машинном обучении понимается соответствие структурных характеристик выборки характеристикам генеральной совокупности, из которой она извлечена. Репрезентативность определяет, насколько возможно обобщать результаты исследования, полученные на основе выборочных данных на всю исходную совокупность.

    Иными словами, репрезентативная выборка — это такая выборка, в которой представлены все группы, важные для исследования. Также репрезентативность можно определить как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

    Отсутствие репрезентативности выборки приводит к некорректным результатам анализа. Поэтому перед использованием выборки необходимо убедиться, что она репрезентативна.

    Обеспечение репрезентативности выборки достигается правильным выбором используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности.

    Выделяют качественную и количественную репрезентативность. Качественная репрезентативность предполагает, что выборка содержит представителей всех групп объектов совокупности и в соответствующей пропорции. Например, если совокупность содержит мужчин и женщин в пропорции 2/3, то и выборка, чтобы быть репрезентативной, должна содержать представителей обоих полов в отношении 2/3.

    Количественная репрезентативность предполагает достаточное количество наблюдений выборки. Т.е. выборка может быть качественно репрезентативной, но при этом содержать слишком мало наблюдений для построения эффективной модели. Особенно в этом случае страдает обобщающая способность модели. Например, чтобы нейронная сеть обладала обобщающей способностью, необходимо, что число примеров в обучающей выборке было в 2-3 раза больше числа межнейронных связей. При недостаточном объеме выборки это условие может не соблюдаться.