Файл: Современные технологии анализа больших данных.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.11.2023

Просмотров: 48

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


В статье также подчеркивается, что безусловно, большие данные чаще генерируется предприятиями, а не обычными потребителями.

Вы можете использовать более простое определение, которое полностью соответствует установленному и более простому определению, которое полностью согласуется с журналистами и маркетологами. «Большие данные - это комбинация технологий, которые могут делать три вещи [1]:

1. Обработка больших объемов данных по сравнению с «нормальными» сценариями.

2. Чтобы иметь возможность работать с данными, вам нужно быстро прибыть в очень больших количествах. Это означает, что данных не только много, но их становится все больше и больше.

3. Уметь работать со структурированными и слегка структурированными данными параллельно и в разных аспектах.

Считается, что эти «навыки» позволяют выявить скрытые закономерности, которые ускользают от ограниченного человеческого восприятия. Это предоставляет беспрецедентные возможности для оптимизации многих областей нашей жизни: правительства, медицины, телекоммуникаций, финансов, транспорта, производства и так далее. Неудивительно, что журналисты и маркетологи использовали фразу «Большие данные» так часто, что многие эксперты считают этот термин зачисленным и предлагают отказаться от него.

Кроме того, в октябре 2015 года Gartner исключила Big Data из списка популярных трендов. Аналитики компании объяснили свое решение тем, что понятие «большие данные» включает в себя значительное количество технологий, которые уже активно используются в компаниях, они частично относятся к другим популярным направлениям и направлениям и стали инструментом для повседневной работы.

В любом случае, термин «Большие данные» все еще широко используется, о чем свидетельствует наша статья.

Характерными особенностями больших наборов данных, помимо физического размера, являются другие, которые подчеркивают сложность задачи обработки и анализа этих данных. Набор данных VVV (объем, скорость, разнесение - физический объем, скорость роста данных и потребность в быстрой обработке, способность обрабатывать различные типы данных) был разработан Мета Группой в 2001 году, чтобы показать равную важность управления данными во всех трех аспектах.

Далее возникла интерпретация уже с четырьмя V (прибавилась veracity – достоверность), пять V (viability - жизнеспособность и value - ценность), семи V (variability - изменчивость и visualization - визуализация). Однако организация IDC, к примеру, интерпретирует только четвёртый V как value (ценность), экономическую целесообразность обработки больших объемов данных в соответствующих условиях [6]. 


Основываясь на приведенных выше определениях, основные принципы работы с большими данными следующие [6]:

  • Горизонтальная масштабируемость. Это основной принцип обработки больших данных. Как уже отмечалось, с каждым днем ​​появляется все больше больших данных. Соответственно, необходимо увеличить количество вычислительных узлов, по которым распределяются эти данные, и обработка должна происходить без ущерба для производительности.

  • отказоустойчивость. Этот принцип следует из предыдущего. Поскольку в кластере может быть много вычислительных узлов (иногда десятки тысяч), и их количество может увеличиться, вероятность сбоя компьютера возрастает. Методы работы с большими данными должны учитывать вероятность таких ситуаций и включать в себя превентивные меры.

  • местонахождение данных. Поскольку данные распределяются по большому количеству вычислительных узлов, если они физически расположены на одном сервере и обрабатываются на другом, затраты на передачу данных могут быть неоправданно высокими. Поэтому желательно выполнять обработку данных на том же компьютере, на котором они хранятся.

Эти принципы отличаются от типичных для традиционных, централизованных и вертикальных моделей хорошо структурированного хранилища данных. Фактически разрабатываются подходы и технологии для работы с большими данными [5]:

  • Первоначально набор подходов и технологий включал массовую параллельную обработку неопределенно структурированных данных, таких как СУБД NoSQL, алгоритмы MapReduce и инструменты проекта Hadoop. В будущем другие решения стали относиться к технологиям больших данных, которые предоставляют аналогичные возможности обработки для обработки очень больших массивов данных, а также некоторых аппаратных средств.

  • MapReduce - модель компьютерных кластерных вычислений, представленная Google. Согласно этой модели приложение делится на большое количество идентичных элементарных действий, выполняемых на узлах кластера, и поэтому, естественно, они сводятся к конечному результату.

  • SQL NoSQL (от англ. Not Only SQL, не только SQL) - это общий термин для различных нереляционных баз данных и хранилищ; это не означает какую-либо конкретную технологию или продукт. Обычные реляционные базы данных хорошо подходят для довольно быстрых и единообразных запросов, а для сложных и гибко построенных запросов, характерных для больших данных, нагрузка превышает разумные пределы, и использование СУБД становится неэффективным.

  • Hadoop - набор инструментов, библиотек и сред, свободно распространяемых для создания и выполнения распределенных приложений, работающих на кластерах из сотен и тысяч узлов. Это считается одной из основных технологий большинства данных.

  • R - язык программирования для статистической обработки данных и графики. Он широко используется для анализа данных и стал стандартом для статистических программ.

  • Аппаратные решения. Корпорации Teradata, EMC и т. Д. Предлагают аппаратное и программное обеспечение, предназначенное для обработки больших массивов данных. Эти системы поставляются в виде готовых к установке телекоммуникационных шкафов, содержащих кластер серверов и программное обеспечение для управления массовой параллельной обработкой. Иногда это включает в себя аппаратные решения для аналитической обработки в оперативной памяти, в частности программные и аппаратные системы Hana от SAP и Oracle Exalytics, хотя такая обработка не является массивно параллельной с самого начала, а объем оперативной памяти в одном узле пересекается с несколькими терабайтами.

  • Консалтинговая фирма Mc McKinsey, в дополнение к технологиям NoSQL, MapReduce, Hadoop, R, которые рассматриваются большинством аналитиков, включая технологии Business Intelligence и системы управления реляционными базами данных с поддержкой SQL в контексте адекватности обработка больших данных.


Следует отметить, что McKinsey, международная консалтинговая компания, специализирующаяся на решении проблем, связанных со стратегическим управлением, определяет 11 методов и методов анализа, используемых в больших данных [3].

  • Методы данных класса Data Mining (интеллектуальный анализ данных, интеллектуальный анализ данных, интеллектуальный анализ данных): набор методов для обнаружения ранее неизвестных, нетривиальных и практически полезных знаний, необходимых для принятия решений по данным. Такие методы, в частности, включают в себя: правила ассоциации обучения, классификацию (категоризацию), кластерный анализ, регрессионный анализ, идентификацию и анализ отклонений и тому подобное.

  • Краудсорсинг ОУ - классификация и обогащение данных силами широкой, неопределенной группы людей, которые выполняют эту работу, не вступая в трудовые отношения.

  • F Слияние и интеграция данных - набор методов, которые позволяют интегрировать разнородные данные из нескольких источников для выполнения углубленного анализа (например, обработка цифрового сигнала, обработка естественного языка, включая анализ звука).

  • Машинное обучение, включая обучение учителей и преподавателей - использование моделей, построенных на основе статистического анализа машинного обучения, для получения сложных прогнозов на основе базовых моделей.

  • Искусственные нейронные сети, анализ сетей, оптимизация, включая генетические алгоритмы (генетический алгоритм - алгоритмы эвристического поиска, которые используются для решения задач оптимизации и моделирования путем случайного выбора, объединения и изменения необходимых параметров с использованием механизмов, аналогичных естественному отбору в природе).

  • Распознавание образов.

  • Прогнозная аналитика.

  • Симуляция (имитация): метод, позволяющий создавать модели, описывающие процессы такими, какими они были бы в реальности. Моделирование модно рассматривать как своего рода экспериментальный тест.

  • Пространственный анализ (пространственный анализ): класс данных, который использует топологическую, геометрическую и географическую информацию, удаляется из данных.

  • Статистический анализ - анализ временных рядов, A / B-тестирование (A / B-тестирование, распределенное тестирование - метод маркетинговых исследований, с использованием которого контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько индикаторов были изменены, чтобы выяснить, что улучшает цель путем изменения.

  • Визуализация данных анализа - представление информации в виде рисунков, диаграмм с использованием интерактивных функций и анимации, как для достижения результатов, так и для использования в качестве исходных данных для последующего анализа. На очень важном этапе анализа больших данных вы можете просматривать наиболее важные результаты анализа наиболее удобным для восприятия способом.


Согласно Глобальному институту McKinsey, Большие данные: еще одна граница для инноваций, конкуренции и отчетов о производительности, данные стали таким же важным фактором в производстве, как трудовые или производственные активы. Используя большие наборы данных, компании могут получить ощутимые конкурентные преимущества. Технологии больших данных могут быть полезны при решении следующих задач [2]:

  • прогноз рынка

  • маркетинг и оптимизация продаж

  • разработка продукта

  • принятие решений в управлении

  • увеличение производительности труда

  • эффективная логистика

  • мониторинг состояния основных средств.

На производственных предприятиях большие наборы данных также создаются в результате внедрения предприятия, а большие наборы данных также создаются в результате внедрения технологии промышленного Интернета вещей. Во время этого процесса основные компоненты и узлы станков и станков оснащены датчиками, исполнительными механизмами, контроллерами и иногда недорогими процессорами, способными выполнять предельные (туманные) вычисления. В процессе производства данные постоянно собираются и, возможно, предварительно обрабатываются (например, фильтрация). Аналитические платформы обрабатывают результаты наиболее удобным для восприятия способом и сохраняют их для дальнейшего использования. На основании анализа полученных данных сделаны выводы о состоянии оборудования, эффективности внесенных изменений в технологические процессы и т. д.

Благодаря мониторингу информации в режиме реального времени персонал предприятия может [3]:

  • сократить время простоя

  • улучшить производительность оборудования

  • снизить эксплуатационные расходы на оборудование

  • предотвратить несчастные случаи.

Последний пункт особенно важен. Например, операторы на НПЗ получают в среднем около 1500 оповещений в день, то есть более одного оповещения в минуту. Это приводит к большей усталости для операторов, которые должны постоянно принимать немедленные решения о том, как платформа реагирует на данный сигнал. Однако платформа анализа может отфильтровывать вторичную информацию, и операторы могут затем сосредоточиться в основном на критических ситуациях. Это позволяет им лучше идентифицировать несчастные случаи и, возможно, несчастные случаи. В результате повышается надежность производства, безопасность труда, наличие технологического оборудования и соблюдение требований законодательства.


Кроме того, на основе результатов анализа больших данных можно рассчитать сроки амортизации оборудования, перспективы изменения технологических условий и сокращения обслуживающего персонала или принять стратегические решения относительно дальнейшего развития компания.

Однако помимо этих преимуществ есть и недостатки. Многие ученые выделили слабые стороны этого метода. Критика Д. Бойда и К. Кроуфа была принята во внимание. Они выделили следующие недостатки Большой даты [6]:

  • иллюзия объективности, так как интерпретация найденных моделей находится в центре разработки, которая носит субъективный характер;

  • данных не всегда много - лучше, они могут не касаться изучаемого предмета, также в огромном количестве информации не может быть корреляций;

  • вне контекста собранные данные могут потерять свое значение;

  • наличие и накопление шума в данных, что искажает их смысл;

  • при большом объеме информации расчет корреляций может быть сильно искажен;

  • сопутствующая эндогенность;

  • ошибки измерения и репрезентативности, то есть программа может определить неправильный алгоритм, поэтому данные будут недействительными.

Однако эти проблемы существуют при традиционных формах измерения общественного мнения. Эти вопросы не важны для изучения микрогрупп или небольших сообществ, и при этом нет необходимости изучать большие данные. Помимо технических проблем выделяется ряд этических вопросов, решение которых более проблематично. Их можно разделить на следующие группы [6]:

1) нарушение конфиденциальности;

2) мониторинг поведения сети как в прошлом, так и в реальном времени;

3) Конфиденциальность данных для некоторых групп населения.

По этой причине некоторые исследователи считают, что большие данные должны быть доступны только каждому, что также повышает информационную грамотность как теоретиков-исследователей, так и общественности. Взаимодействие больших данных с высококачественными методами исследования общественного мнения в настоящее время является наиболее эффективным. Потому что, анализируя только статистические данные, нельзя с уверенностью сказать, что является зависимой переменной, а что - независимой. Или, может быть, есть третий фактор, который влияет на изменение двух других параметров.

Следовательно, необходимо качественное дополнение к данным, которые мы можем получить путем анализа больших данных _0_. Если вы сравните большие данные с традиционными методами, вы можете выделить несколько основных отличий [6]: