Файл: Разведочный анализ данных в Python.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.11.2023

Просмотров: 30

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Контрольная работа «Разведочный анализ данных в Python»
Разведочный анализ – это исследование данных при помощи методов описательной статистики и визуализации с целью выявления зависимостей в них и выдвижения гипотез для последующего углубленного анализа, - например, моделирования. Еще одной целью разведочного анализа является оценка пригодности данных к анализу, выявление наличия в них различных проблем, таких как выбросы, пропущенные или некорректные значения, нарушение допущений статистических моделей, которые предполагается в дальнейшем применять к этим данным.
В процессе выполнения этого задания вы проведете разведочный анализ предложенного вам, или самостоятельно выбранного набора данных и продемонстрируете свой уровень владения Python для анализа и визуализации данных, а также свою способность интерпретировать полученные результаты и делать выводы на их основе.
Все этапы подготовки и анализа данных необходимо отразить в HTML-отчете, сгенерированном Jupyter
Notebook. Исходные данные, требования к содержанию отчета и критерии оценивания вы найдете в следующих разделах.
Исходные данные
Мы подготовили для вас несколько наборов данных (по вариантам). Ваш вариант указан в журнале https://1drv.ms/x/s!AjcuTjL4sOrs279fwEZZxdSa7m0jag?e=dUlKqG
Наборы данных и их описание доступны по ссылке: https://disk.yandex.ru/d/MYiqvnXjVZ9Avg
Вместо выполнения назначенного вам варианта, вы можете разработать с использованием Python блокнот для решения реальной прикладной задачи в сфере логистики, либо задачи, связанной с вашей учебной или общественной деятельностью, если такая задача требует применения анализа и визуализации данных.
Данные для работы в этом случае вам необходимо собрать самостоятельно. Если вы хотите работать со своим набором данных – согласуйте задачу со мной, для этого пришлите описание предполагаемой задачи и данных по email (
postlogist@gmail.com
).
Примеры отчетов
С примером отчета по заданию можно познакомиться здесь
Еще несколько более сложных, но и более интересных примеров разведочного анализа данных:
-
Climatology of Atlantic Hurricanes by Dean D. Churchill
-
Geography of American Musicians by Stefan Zapf
Структура отчета
Все этапы подготовки данных и анализа должны быть отражены в HTML-отчете, полученном при помощи команды File>Download as… HTML в Jupyter Notebook. Перед загрузкой выполните команду: Kernel>Restart &
Run All. Проверьте, все ли нормально с результатами расчетов. Если у вас есть ошибки в блокноте, то последующие ячейки не запустятся и мы не сможем проверить результат.
Ваш отчет должен включать следующие разделы:
1)
Заголовок и сведения об авторе (ФИО полностью, группа).
2)
Аннотация – краткое (2-3 предложения) описание того, какая задача решена в вашем исследовании и какие результаты получены
3)
Введение – постановка задачи и описание набора данных, если собирали данные сами – ссылки на источники.
4)
Подготовка данных к анализу – в этот раздел поместите код для загрузки данных, а также проверку технического качества (обработка пропусков, изменение форматов, работа с уровнями факторов и т.п., фильтрация или подвыборка). Многие представленные для анализа наборы данных содержат

большое количество пропусков. Вдумчиво подходите к обработке пропусков. Механистический подход к выбору стратегии обработки может привести к большой потере или искажению данных.
Также имеет обрабатывать пропуски только в тех переменных, которые вы используете в своем анализе, чтобы сэкономить время.
5)
Разведочный анализ данных – в этом разделе следует отразить ваши мысли, гипотезы и результаты их проверки в ходе поиска и анализа зависимостей в данных. В большинстве заданий мы предложили вам несколько вопросов для исследования. Ориентируйтесь на них, или предложите свои, в соответствии с тем, что вы видите в данных. Раздел должен быть структурирован на подразделы при помощи заголовков. Вы можете использовать здесь «черновые» графики и не тратить много времени на их оформление, однако корректность выбора способа визуализации в зависимости от вида данных и решаемой задачи будет оцениваться. Обязательно следует описывать ваши предположения и комментировать полученные результаты. Вы можете оставлять в отчете «тупиковые» ветви вашего анализа – гипотезы, которые не нашли подтверждения в данных. При оформлении кода придерживайтесь рекомендаций
PEP 8 6)
Итоговые результаты и выводы
В этом разделе необходимо поместить
три визуализации, которые наилучшим образом отражают результаты вашего исследования. Эти визуализации должны быть оформлены максимально наглядным образом (подберите эффективную палитру, используйте аннотации и инструменты для сравнения, «отполируйте» названия и метки на графике, выделите наиболее важные элементы для привлечения внимания к ним и т.п.). Вы можете повторить визуализации, которые уже были включены в раздел «Разведочный анализ», или сделать новые. Постарайтесь, чтобы ваша идея была понятна аудитории уже при просмотре визуализации, и для понимания не требовалось изучать ваше описание и, тем более, код.
В выводах следует отразить и интерпретировать основные результаты, полученные вами в ходе разведочного анализа. Какие гипотезы подтвердились, а какие – нет. Как эти результаты могут быть использованы, и какие ограничения при этом следует учесть.
По желанию, вы можете также отразить трудности, которые встретились вам в процессе анализа, а также указать источники/материалы, которые помогли вам их преодолеть.


Критерии оценивания работы
Качество кода – 15%
Критерий
Требования
Код работает?
К рассмотрению принимаются только отчеты, полученные при помощи преобразования блокнота Jupyter в формат HTML. Все ошибки, препятствующие этому, надо устранить
Используются лучшие
практики?
При написании кода используются пробелы, переводы строки и отступы, а также комментарии чтобы сделать код легко читаемым. Используются рекомендации
PEP 8
. Не используются «зашитые» в код константы – например, когда для визуализации опорной линии для среднего в коде используется вручную введенное число. Вместо этого стоит использовать функцию mean().
Качество оформления отчета – 25%
Критерий
Требования
Документ
имеет
понятную структуру?
Используются заголовки и различные приемы форматирования, доступные в
Markdown, чтобы сделать структуру отчета понятной. Пояснения и выводы по ходу анализа написаны в виде Markdown текста, а не в комментариях.
Нет
громоздкого
вывода Python?
В отчете нет громоздкого вывода – например, очень длинных таблиц или текстового вывода Python
Качество разведочного анализа -30%
Критерий
Требования
Проведена
оценка
качества данных?
После загрузки данных выполнена проверка на наличие пропущенных значений, выполнены необходимые операции по подготовке к анализу (отбор данных, перекодирование уровней фактора, замена или фильтрация пропущенных или некорректных значений и т.п.)
В
ходе
анализа
документируются
гипотезы и выводы?
Ход анализа поясняется в виде Markdown текста. Между блоками кода регулярно включаются пояснения – например, проверяемые гипотезы и интерпретация полученных результатов.
Логика
анализа
понятна?
Ход анализа подчиняется логике, которую можно понять. Выводы и решения соответствуют визуализациям, полученным в результате выполнения кода.
Последующие шаги анализа определяются полученными до этого результатами.
Анализ
достаточно
полный?
В отчете используются методы для анализа распределений, а также зависимостей между двумя и более переменными разного вида (количественные, категориальные). Отчет содержит как минимум 10 визуализаций.
Методы
анализа
применяются
корректно?
Используются уместные в данной ситуации статистические показатели и способы визуализации данных. Переменные, к которым применяются методы анализа, не перепутаны. Визуализации наглядно передают зависимости в данных.
Качество итоговых визуализаций и выводов – 30%
Критерий
Требования
Раздел присутствует в
отчете?
В отчете содержится раздел с итоговыми визуализациями и выводами. В него включены три визуализации и пояснения к ним, а также общий вывод.
Итоговые визуализации
передают максимально
наглядно
основные
результаты анализа?
Включенные в раздел графика тщательно подобраны и отражают интересные зависимости в данных. График можно понять, не обращаясь к тексту отчета или коду. Выполняются по крайней мере два критерия из списка:
-
Визуализации содержат сравнения
-
Визуализации позволяют выделить тренды
-
Визуализации понятны широкой аудитории
-
Визуализации поясняют сложную зависимость, обнаруженную в данных
-
Визуализации позволяют аудитории усвоить большой объем информации
-
Визуализации отражают разрыв между ожиданиями/восприятием и реальностью


Графики
хорошо
оформлены?
Графики содержат понятные и информативные названия и метки. Указаны единицы измерения величин. Диапазон и шкала координатных осей позволяют легко видеть данные.
Результаты объяснены? Обсуждение и выводы на основе визуализаций описаны в тексте отчета. Текст пояснений соответствует тому, что изображено на графиках.
Описана применимость
результатов
и
ограничения
В выводах описано, как можно применить полученные результаты, и какие ограничения связаны с используемыми данными и принятыми в процессе анализа допущениями.
Отправка работы на проверку
Отчет по заданию необходимо отправить на проверку не позднее 4 апреля, загрузив ее в задание в
Moodle. Защита работ будет проводиться в формате собеседования 5 апреля.
Это задание выполняется индивидуально. Нельзя делиться с коллегами своими решениями. При обнаружении похожих работ результаты будут аннулированы всем соучастникам.
Перед отправкой, просмотрите полученный HTML-отчет на предмет технических проблем (например, читаемости кодировки при открытии в браузере, не выполненных из-за ошибок ячеек), а также сверьтесь с критериями оценивания