Файл: Научнообразовательный журнал для студентов и преподавателей.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.02.2024

Просмотров: 70

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Научно-образовательный журнал для студентов и преподавателей «StudNet» №6/2021


ОБРАБОТКА БОЛЬШИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ СРЕДСТВ ЯЗЫКА PYTHON


PROCESSING BIG DATA USING THE PYTHON LANGUAGE TOOLS




Карпов Даниил Константинович, бакалавр, Московский Государственный Технический Университет имени Н. Э. Баумана, г. Москва
Karpov D.K. dkkarpov@gmail.com

Аннотация


Постановка проблемы. Большие данные, неумолимо внедряются практически во все сферы жизни и пользователь повседневно сталкивается с необходимостью длительного анализа получаемой информации. Поэтому в последнее время активно развиваются способы упрощения возможностей добычи и анализа данных: RapidMiner, язык программирования R, методы DataMining. Однако все вышеперечисленные способы довольно сложны для обычного пользователя. Автором данной статьи предлагается использовать небольшие парсеры для упрощения работы пользователя и обработки объемных сайтов с данными.

Цель. Расмотреть возможность использования инструментов языка python для обработки и анализа больших данных.

Практическая значимость. Предложенная методика может быть использована широким кругом пользователей, которым не обязательно быть программистами или инженерами. Такие скриптыы могут быть легко настраиваемыми, динамично изменяющимися и простыми в обращении

Annotation


Problem statement. Big data is inexorably introduced into almost all spheres of life, and the user is daily faced with the need for a long analysis of the information


received. Therefore, recently, ways to simplify data mining and analysis capabilities have been actively developed: RapidMiner, the R programming language, and Data Mining methods. However, all of the above methods are quite difficult for the average user. The author of this article suggests using small parsers to simplify the user's work and the processing of large sites with data.

Goal. To consider the possibility of using python tools for processing and analyzing big data.

Practical significance. The proposed method can be used by a wide range of users who do not have to be programmers or engineers. Such scripts can be easily configurable, dynamically changing, and easy to handle.

Ключевые слова: большие данные, Data Moning, парсинг, python разработка, анализ данных, машинное обучение.

Keywords: big data, Data Moning, parsing, python development, data analysis, machine learning.

  1. Введение


Big Data, или «большие данные» по-русски - термин, появившийся совсем недавно - всего шесть лет назад. Но это не означает, что одновременно возникло и само явление. Большими данными принято называть большие объемы информации со сложной неоднородной и / или неопределенной структурой. Иногда о больших данных говорят как о неструктурированной информации, но это неверно - большие данные всегда имеют структуру, они могут быть сложными из-за того, что данные поступают из разных источников и содержат совершенно разную информацию или совершенно неизвестны. То есть, как правило, собрать эту стопку в одну таблицу не удается.

Большие данные (Big Data) - это структурированные

и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределенно анализировать информацию.
Для аналитической обработки Больших Данных используется широкий спектр методов и алгоритмов. Это методы классов Data Mining (поиск ассоциативных правил, классификация, кластеризация и др.) и Machine Learning, искусственные

нейронные сети и распознавание образов, имитационное моделирование, статический анализ и др.
Стоит заметить, что в России под термином «Big Data» подразумевают также технологии обработки, а в мире — лишь сам объект исследования.

  1. Актуальность


Актуальность работы обусловлена тем, что количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Стоит отметить, что Большие данные, неумолимо внедряются практически во все сферы жизни. Не иметь подобающих инструментов для анализа и обработки этих данных, значит подтверждать свою беспомощность и несостоятельность в информационном обществе.

  1. Функции и задачи больших данных


Когда говорят о Big Data, упоминают правило VVV — три признака или свойства, которыми большие данные должны обладать:

  • Volume (объем)— данные измеряются по величине физического объема документов.

  • Velocity (быстрота) — данные регулярно обновляются, что требует их постоянной обработки.

  • Variety (разнообразие) — разнообразные данные могут иметь неоднородные форматы, быть неструктурированными или структурированными частично.



  1. Методики анализа больших данных



Существует множество разнообразных методик анализа массивов данных, в
основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Вот некоторые из них:

  • методыклассаDataMining:изучение правил ассоциации (англ. association rule learning), классификация (методы классификации новых данных на основе принципов, ранее применявшихся к существующим данным), кластерный анализ, регрессионный анализ;

Знания, обнаруженные в процессе Data Mining, должны быть нетривиальными и ранее неизвестными. етривиальность означает, что такие знания не могут быть обнаружены простым визуальным анализом. Они должны описывать взаимосвязи между свойствами коммерческих объектов, прогнозировать значения одних функций на основе других и т.д. Полученные знания должны применяться к новым объектам.

  • краудсорсинг категоризация и обогащение данных широким, неопределенным кругом лиц, работающих на основе публичной оферты без вступления в трудовые отношения.

  • смешение и интеграция данных (англ. data fusion and integration) — набор методов, которые объединяют разнородные данные из разных источников для проведения углубленного анализа. Примеры таких методов, составляющих этот класс методов, включают в себя цифровую обработку сигналов и обработку естественного языка (включая тональный анализ);

  • машинное обучение, включая обучение с учителем и без учителя, атакжеEnsemblelearning(англ.) использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. состатистическим ансамблем в статистической механике);



Стоит отметить, что принято выделять 2 типа машинного обучения:


    • Индуктивное или по прецедентам, которое основано на выявлении эмпирических закономерностей во входных данных;

    • Дедуктивное, которое предполагает формализацию знаний экспертов и их перенос в цифровую форму в виде базы знаний.

  • искусственныенейронныесети,сетевойанализ,оптимизация,втомчисле генетическиеалгоритмы;

  • распознаваниеобразов;

  • прогнознаяаналитика;

  • имитационноемоделирование;

  • пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;

  • статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;

  • визуализация аналитических данных — представление информации в виде изображений, диаграмм с использованием интерактивных функций и анимации, как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.


В рамках данной работы рассмотрим поподробнее класс Data mining.


  1. Data Mining.


Data Mining – это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных, практически полезных и интерпретируемых знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining является одним из шагов Knowledge Discovery in Databases.

К методам и алгоритмам Data Mining относятся:


  • искусственные нейронные сети

  • деревья решений, символьные правила

  • методы ближайшего соседа и k-ближайшего соседа

  • метод опорных векторов

  • байесовские сети

  • линейная регрессия

  • корреляционно-регрессионный анализ

  • иерархические методы кластерного анализа

  • неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы

  • эволюционное программирование и генетические алгоритмы

  • метод ограниченного перебора

  • эволюционное программирование и генетические алгоритмы

  • разнообразные методы визуализации данных и множество других методов.