Файл: 1 выбор платформы и данных.docx

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 07.11.2023

Просмотров: 507

Скачиваний: 18

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.



Содержание

Введение 3

1 выбор платформы и данных 5

1.1 Выбор платформы для разработки и необходимых библиотек 5

1.1.1 Обоснование выбора платформы интерпретатора языка Python 5

1.1.2 Выбор библиотек для анализа данных 6

1.2 Получение данных 7

1.2.1 Предварительный анализ данных 7

1.2.2 Выбор формата хранения данных 7

1.2.3 Очистка данных от цифрового мусора 8

1.3 Выводы по разделу 9

2 количественный анализ данных 15

2.1 Получение данных Dataset (данные) 15

2.2 Рассчет стандартных числовых характеристик для набора данных Series 16

2.3 Выводы по разделу 18

3 визуализация результатов количествнного анализа данных 21

3.1 Визуализация наборов данных с помощью стандартных библиотек по заданным критериям 21

2.4 Формирование Dataframe из данных Series и добавление столбцов 22

2.5 Визуализация данных полученные в результате промежуточного анализа 23

3.2 Выводы по разделу 24


Список использованной литературы 28


Введение
Учебная практика (ознакомительная практика) относится к разделу Б2.О.01 блока «Практики» базового учебного плана основной профессиональной образовательной программы по направлению подготовки 38.03.05 «Бизнес-информатика» и является видом учебной деятельности, направленной на ознакомление, формирование, закрепление, развитие практических навыков и компетенции в процессе выполнения определенных видов работ, связанных с будущей профессиональной деятельностью. Учебная практика проходила в Московском университете им. С.Ю. Витте (далее - Университете) на кафедре информационных систем

Цель практики

приобретение первичных профессиональных навыков, практического опыта, закрепление, систематизация и расширение теоретических знаний по дисциплинам учебного плана при прохождении учебной практики в Университете.

Задачи практики

  • Закрепление приобретенных теоретических знаний.

  • Приобретение навыков научного поиска и практической работы с информационными источниками данных.

  • Овладение практическими методиками формирования цели и задач для работы над групповым проектом, управления познавательной деятельностью.

  • Приобретение практических навыков участия в командной работе, в групповых проектах, распределения ролей в условиях командного взаимодействия

  • Приобретение практических навыков использования иностранного языка при анализе зарубежных информационных Интернет источников.

  • Приобретение навыков использования современных информационных технологий и программных средств для решения задач анализа данных.

  • Приобретение навыков инсталлирования программного обеспечения.

  • Формирование практических навыков по основам алгоритмизации вычислительных процессов и программированию решения задач обработки данных их отладке и тестирования на выбранной языковой платформе.

  • Получение навыков экспериментального исследования больших данных и практического решения информационных задач по обработке данных.

  • Получения навыков проведения инженерных расчетов.

  • Получение навыков самостоятельной работы.

  • Получение навыков подготовки отчетной документации


Источниками информации явились открытые информационные базы, информационно-справочные документы, интернет-ресурсы, учебно-методические материалы, размещенные в Электронном Университете, а также информация, представленная на официальном сайте университета в разделе «Сведения об образовательной организации»: https://www.muiv.ru/sveden/.



ОСНОВНАЯ ЧАСТЬ


  • выбор платформы и данных




  • Выбор платформы для разработки и необходимых библиотек

Python - это высокоуровневый язык программирования, который был разработан с акцентом на удобство написания и читаемость кода. Ядро Python имеет минималистический синтаксис, однако стандартная библиотека включает огромное количество полезных функций. Этот язык поддерживает различные парадигмы программирования, включая структурное, объектно-ориентированное, функциональное, императивное и аспектно-ориентированное. Некоторые из основных характеристик Python - динамическая типизация, автоматическое управление памятью, поддержка многопоточных вычислений, возможность полной интроспекции, механизм обработки исключений и удобные высокоуровневые структуры данных. В Python код организуется в функции и классы, которые можно объединять в модули. Кроме того, существует множество полезных библиотек, таких как Matplotlib, pandas, NumPy.

  • Обоснование выбора платформы интерпретатора языка Python

Я, выбрал использование Python из-за следующих причин:
Простота изучения и практического использования. Python имеет простой синтаксис, хорошую документацию и богатую стандартную библиотеку, что делает его привлекательным для начинающих программистов.
Мультиплатформенность. Python можно использовать на различных операционных системах, в том числе на Windows, Linux и Mac OS.
Большое сообщество разработчиков. Python имеет огромное сообщество разработчиков и пользователей, где можно найти ответы на любые вопросы, а также множество бесплатных инструментов и библиотек.
Широкое применение. Python широко используется в таких областях, как машинное обучение, анализ данных, веб-разработка, научные исследования, автоматизация и т.д.

Высокая производительность. Python может быть достаточно быстрым благодаря своей структуре и оптимизации.
Исходя из всех этих факторов, я рекомендую использовать Python для различных проектов и задач.


  • Выбор библиотек для анализа данных

На сегодняшний день на языке Python доступны многочисленные библиотеки для обработки, анализа и визуализации данных. Однако не все они одинаково удобны в использовании, имеют объемный функционал и получили поддержку со стороны сообщества. Только несколько библиотек оправдали ожидания по всем этим аспектам, среди них pandas, matplotlib и numpy.
Pandas

Pandas - это высокоуровневая библиотека на языке программирования Python, предназначенная для обработки и анализа данных, включая CSV, Excel, SQL и в других форматах. Она предоставляет удобные инструменты для работы с табличными данными, такими как функции для чтения и записи данных из различных источников, слияния, группировки и агрегирования данных, а также для визуализации результатов анализа.
Matplotlib

Библиотека Matplotlib - это библиотека на языке программирования Python для создания графиков и диаграмм. Она позволяет создавать различные типы графиков, такие как линейные графики, гистограммы, круговые диаграммы, диаграммы рассеяния и т.д. Matplotlib предоставляет широкие возможности для кастомизации внешнего вида графиков, включая настройку цветов, текста, шрифтов, подписей, легенды и т.д.

Requests

Библиотека Requests - это библиотека на языке программирования Python, которая предоставляет удобные инструменты для работы с HTTP-запросами. Она позволяет отправлять GET, POST, PUT, DELETE и другие типы запросов на веб-серверы, получать данные в различных форматах (например, JSON, XML), а также управлять заголовками запросов.

Numpy

NumPy - это библиотека на языке программирования Python для работы с многомерными массивами (включая матрицы), а также инструментов для работы с этими массивами. NumPy является основной библиотекой для научных вычислений в Python и широко используется в различных областях, таких как машинное обучение, анализ данных, наука о материалах и другие.



  • Получение данных

  • Предварительный анализ данных

Анализ данных в Python может включать в себя множество задач, таких как чтение и запись данных, очистка и предобработка, визуализация и моделирование данных. В Python для решения этих задач используются различные библиотеки, такие как NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn и другие. Некоторые возможности анализа данных в Python: Чтение и запись данных, Очистка и предобработка данных, Визуализация данных, Моделирование данных

Пример программного кода предварительного анализа данных в Python с использованием библиотеки Pandas и matplotlib:

import random
import pandas as pd
import matplotlib.pyplot as plt

data_list = []
# создаем пустой список для данных

for i in range(1000):
data_list.append(random.randint(-
10000, 10000)) # генерируем случайное число и добавляем в список

df = pd.DataFrame(data_list, columns=['Values'])

# Описательная статистика
print(df.describe())

# Гистограмма распределения значений
df.hist(bins=20)
plt.title(
'Histogram of Values')
plt.xlabel(
'Value')
plt.ylabel(
'Frequency')
plt.show()


Рис.1

На рис1. метод describe() позволяет получить описательную статистику по столбцу 'Values', включающую среднее, стандартное отклонение, минимальное и максимальное значения, а также квартили.
Гистограмма распределения значений показывает, что выборка имеет примерно равномерное распределение, с небольшими выбросами на краях диапазона.