Добавлен: 07.11.2023
Просмотров: 507
Скачиваний: 18
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Содержание
Введение 3
1 выбор платформы и данных 5
1.1 Выбор платформы для разработки и необходимых библиотек 5
1.1.1 Обоснование выбора платформы интерпретатора языка Python 5
1.1.2 Выбор библиотек для анализа данных 6
1.2 Получение данных 7
1.2.1 Предварительный анализ данных 7
1.2.2 Выбор формата хранения данных 7
1.2.3 Очистка данных от цифрового мусора 8
1.3 Выводы по разделу 9
2 количественный анализ данных 15
2.1 Получение данных Dataset (данные) 15
2.2 Рассчет стандартных числовых характеристик для набора данных Series 16
2.3 Выводы по разделу 18
3 визуализация результатов количествнного анализа данных 21
3.1 Визуализация наборов данных с помощью стандартных библиотек по заданным критериям 21
2.4 Формирование Dataframe из данных Series и добавление столбцов 22
2.5 Визуализация данных полученные в результате промежуточного анализа 23
3.2 Выводы по разделу 24
Список использованной литературы 28
Введение
Учебная практика (ознакомительная практика) относится к разделу Б2.О.01 блока «Практики» базового учебного плана основной профессиональной образовательной программы по направлению подготовки 38.03.05 «Бизнес-информатика» и является видом учебной деятельности, направленной на ознакомление, формирование, закрепление, развитие практических навыков и компетенции в процессе выполнения определенных видов работ, связанных с будущей профессиональной деятельностью. Учебная практика проходила в Московском университете им. С.Ю. Витте (далее - Университете) на кафедре информационных систем
Цель практики
приобретение первичных профессиональных навыков, практического опыта, закрепление, систематизация и расширение теоретических знаний по дисциплинам учебного плана при прохождении учебной практики в Университете.
Задачи практики
-
Закрепление приобретенных теоретических знаний. -
Приобретение навыков научного поиска и практической работы с информационными источниками данных. -
Овладение практическими методиками формирования цели и задач для работы над групповым проектом, управления познавательной деятельностью. -
Приобретение практических навыков участия в командной работе, в групповых проектах, распределения ролей в условиях командного взаимодействия -
Приобретение практических навыков использования иностранного языка при анализе зарубежных информационных Интернет источников. -
Приобретение навыков использования современных информационных технологий и программных средств для решения задач анализа данных. -
Приобретение навыков инсталлирования программного обеспечения. -
Формирование практических навыков по основам алгоритмизации вычислительных процессов и программированию решения задач обработки данных их отладке и тестирования на выбранной языковой платформе. -
Получение навыков экспериментального исследования больших данных и практического решения информационных задач по обработке данных. -
Получения навыков проведения инженерных расчетов. -
Получение навыков самостоятельной работы. -
Получение навыков подготовки отчетной документации
Источниками информации явились открытые информационные базы, информационно-справочные документы, интернет-ресурсы, учебно-методические материалы, размещенные в Электронном Университете, а также информация, представленная на официальном сайте университета в разделе «Сведения об образовательной организации»: https://www.muiv.ru/sveden/.
ОСНОВНАЯ ЧАСТЬ
-
выбор платформы и данных
-
Выбор платформы для разработки и необходимых библиотек
Python - это высокоуровневый язык программирования, который был разработан с акцентом на удобство написания и читаемость кода. Ядро Python имеет минималистический синтаксис, однако стандартная библиотека включает огромное количество полезных функций. Этот язык поддерживает различные парадигмы программирования, включая структурное, объектно-ориентированное, функциональное, императивное и аспектно-ориентированное. Некоторые из основных характеристик Python - динамическая типизация, автоматическое управление памятью, поддержка многопоточных вычислений, возможность полной интроспекции, механизм обработки исключений и удобные высокоуровневые структуры данных. В Python код организуется в функции и классы, которые можно объединять в модули. Кроме того, существует множество полезных библиотек, таких как Matplotlib, pandas, NumPy.
-
Обоснование выбора платформы интерпретатора языка Python
Я, выбрал использование Python из-за следующих причин:
Простота изучения и практического использования. Python имеет простой синтаксис, хорошую документацию и богатую стандартную библиотеку, что делает его привлекательным для начинающих программистов.
Мультиплатформенность. Python можно использовать на различных операционных системах, в том числе на Windows, Linux и Mac OS.
Большое сообщество разработчиков. Python имеет огромное сообщество разработчиков и пользователей, где можно найти ответы на любые вопросы, а также множество бесплатных инструментов и библиотек.
Широкое применение. Python широко используется в таких областях, как машинное обучение, анализ данных, веб-разработка, научные исследования, автоматизация и т.д.
Высокая производительность. Python может быть достаточно быстрым благодаря своей структуре и оптимизации.
Исходя из всех этих факторов, я рекомендую использовать Python для различных проектов и задач.
-
Выбор библиотек для анализа данных
На сегодняшний день на языке Python доступны многочисленные библиотеки для обработки, анализа и визуализации данных. Однако не все они одинаково удобны в использовании, имеют объемный функционал и получили поддержку со стороны сообщества. Только несколько библиотек оправдали ожидания по всем этим аспектам, среди них pandas, matplotlib и numpy.
Pandas
Pandas - это высокоуровневая библиотека на языке программирования Python, предназначенная для обработки и анализа данных, включая CSV, Excel, SQL и в других форматах. Она предоставляет удобные инструменты для работы с табличными данными, такими как функции для чтения и записи данных из различных источников, слияния, группировки и агрегирования данных, а также для визуализации результатов анализа.
Matplotlib
Библиотека Matplotlib - это библиотека на языке программирования Python для создания графиков и диаграмм. Она позволяет создавать различные типы графиков, такие как линейные графики, гистограммы, круговые диаграммы, диаграммы рассеяния и т.д. Matplotlib предоставляет широкие возможности для кастомизации внешнего вида графиков, включая настройку цветов, текста, шрифтов, подписей, легенды и т.д.
Requests
Библиотека Requests - это библиотека на языке программирования Python, которая предоставляет удобные инструменты для работы с HTTP-запросами. Она позволяет отправлять GET, POST, PUT, DELETE и другие типы запросов на веб-серверы, получать данные в различных форматах (например, JSON, XML), а также управлять заголовками запросов.
Numpy
NumPy - это библиотека на языке программирования Python для работы с многомерными массивами (включая матрицы), а также инструментов для работы с этими массивами. NumPy является основной библиотекой для научных вычислений в Python и широко используется в различных областях, таких как машинное обучение, анализ данных, наука о материалах и другие.
-
Получение данных -
Предварительный анализ данных
Анализ данных в Python может включать в себя множество задач, таких как чтение и запись данных, очистка и предобработка, визуализация и моделирование данных. В Python для решения этих задач используются различные библиотеки, такие как NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn и другие. Некоторые возможности анализа данных в Python: Чтение и запись данных, Очистка и предобработка данных, Визуализация данных, Моделирование данных
Пример программного кода предварительного анализа данных в Python с использованием библиотеки Pandas и matplotlib:
import random
import pandas as pd
import matplotlib.pyplot as plt
data_list = [] # создаем пустой список для данных
for i in range(1000):
data_list.append(random.randint(-10000, 10000)) # генерируем случайное число и добавляем в список
df = pd.DataFrame(data_list, columns=['Values'])
# Описательная статистика
print(df.describe())
# Гистограмма распределения значений
df.hist(bins=20)
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
Рис.1
На рис1. метод describe() позволяет получить описательную статистику по столбцу 'Values', включающую среднее, стандартное отклонение, минимальное и максимальное значения, а также квартили.
Гистограмма распределения значений показывает, что выборка имеет примерно равномерное распределение, с небольшими выбросами на краях диапазона.