Файл: Python Анализ данных.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.10.2023

Просмотров: 8

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Тест по курсу “Python: Анализ данных”




  1. Для решения каких задач используются алгоритмы машинного обучения? Приведите известные Вам примеры для каждой задачи,либо придумайте свой пример.

Алгоритмы машинного обучения используются для решения широкого спектра задач:

1. Классификация: определение категории, к которой относится объект на основе имеющихся данных. Примеры: определение, является ли электронное письмо спамом или не спамом, классификация изображений на снимках спутников.

2. Регрессия: предсказание числового значения на основе имеющихся данных. Примеры: прогнозирование цены на недвижимость, оценка вероятности возникновения заболевания у пациента.

3. Кластеризация: группировка объектов на основе их сходства. Примеры: сегментация покупателей для улучшения маркетинговых кампаний, группировка новостных статей по тематике.

4. Обработка естественного языка: анализ текстов на естественном языке для извлечения смысла и информации. Примеры: автоматический перевод текстов на другие языки, анализ тональности отзывов о продуктах.

5. Рекомендательные системы: предсказание предпочтений пользователей на основе их истории взаимодействия с системой. Примеры: рекомендации товаров в интернет-магазинах, рекомендации фильмов на основе предыдущих просмотров.

6. Обработка изображений и видео: анализ изображений и видео для извлечения информации и определения объектов на них. Примеры: распознавание лиц на фотографиях, автоматическая классификация видео по жанрам.

7. Генерация контента: создание нового контента на основе имеющихся данных. Примеры: генерация текстов на естественном языке, создание музыки и изображений.

  1. Что показывают коэфиициенты перед X1....Xn в линейной регрессии?

 Коэффициенты перед X1...Xn в линейной регрессии показывают, насколько влияет каждый из признаков (X1...Xn) на целевую переменную. Они определяют наклон прямой, которая лучше всего подходит для описания связи между независимыми переменными и зависимой переменной. Чем больше коэффициент, тем сильнее влияние соответствующего признака на целевую переменную. При этом положительный коэффициент означает прямую зависимость между признаком и целевой переменной, а отрицательный - обратную зависимость.


 

  1. Что показывает константа в линейной регрессии?

Константа в линейной регрессии (интерсепт) показывает значение целевой переменной, когда все независимые переменные равны нулю. Она определяет точку пересечения линейной регрессии с осью Y (ось зависимой переменной). В отличие от коэффициентов перед независимыми переменными, константа не зависит от значений признаков и остается постоянной для всех наблюдений.

  1. Что показывает мультиколлинеарность в регрессионной модели?

Мультиколлинеарность в регрессионной модели показывает, что две или более независимые переменные в модели сильно коррелируют между собой. Это может привести к нестабильности оценок коэффициентов регрессии и усложнить интерпретацию результатов модели. В случае сильной мультиколлинеарности, одна из переменных может быть исключена из модели, чтобы улучшить ее точность и интерпретируемость.

  1. Опишите суть МНК(метода наименьших квадратов)

Метод наименьших квадратов (МНК) - это статистический метод для оценки параметров линейной регрессионной модели путем минимизации суммы квадратов отклонений между фактическими и предсказанными значениями зависимой переменной. Метод заключается в том, чтобы найти такие значения коэффициентов регрессии, которые минимизируют сумму квадратов остатков (разниц между фактическими и предсказанными значениями). МНК используется для оценки параметров в линейных моделях, где зависимая переменная может быть связана с одной или несколькими независимыми переменными. Оценки коэффициентов МНК обладают свойствами наилучшей линейной несмещенной оценки (BLUE), что означает, что они являются наилучшими оценками параметров линейной регрессии в смысле минимизации дисперсии.

  1. В каких границах лежит линейный коэффициент корреляции ,и что он показывает?

Линейный коэффициент корреляции (r) лежит в пределах от -1 до 1. Он показывает степень линейной связи между двумя переменными. Если r близок к 1, то есть положительная линейная связь между переменными, то есть при увеличении одной переменной другая также увеличивается. Если r близок к -1, то есть отрицательная линейная связь между переменными, то есть при увеличении одной переменной другая уменьшается. Если r близок к 0, то нет линейной связи между переменными. Чем ближе значение r к 1 или -1, тем сильнее связь между переменными.



  1. Что показывает коэффициент детерминации R2?

Коэффициент детерминации R2 показывает, какую долю дисперсии зависимой переменной можно объяснить с помощью независимой переменной. Он выражается в процентах и может принимать значения от 0 до 1. Значение R2 близкое к 1 означает, что модель хорошо объясняет изменения зависимой переменной, а близкое к 0 – что модель не объясняет изменения зависимой переменной.

  1. Что показывает p-value в регрессионных моделях?

p-value (уровень значимости) в регрессионных моделях показывает вероятность получения таких или более экстремальных результатов, если нулевая гипотеза верна. В контексте регрессии нулевая гипотеза заключается в том, что коэффициенты регрессии равны нулю, то есть независимая переменная не влияет на зависимую переменную. Если p-value меньше установленного уровня значимости (обычно 0.05), то нулевая гипотеза отвергается и можно считать, что независимая переменная имеет статистически значимое влияние на зависимую переменную. Если же p-value больше уровня значимости, то нулевая гипотеза не отвергается и можно считать, что влияние независимой переменной на зависимую переменную не является статистически значимым.

  1. Для каких задач используется алгоритм Random Forest (“случайный лес”) ?



  1. Что показывают метрики Accuracy, Recall, Precision?