Файл: Монография г. Рыбница 2019 2 Рецензенты.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.12.2023

Просмотров: 305

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Наименование
технологии
Описание технологии
RDBMS
Подход основывался на модели реляционных БД, использующей для хранения данных реляции. Данные обрабатывались и запоминались в картежах (строках) отношений. В современных СУРБД для ускорения работы, используют массовую параллельную обработку, разбивая данные на небольшие группы и обрабатывая одновременно на многих узлах.
Наряду с хранением информации в картежах отношений применяются архитектуры хранения информации в столбцах. В качестве языка запросов используют SQL.
MapReduce
Представляет собой комбинацию двух функций: map-функция и reduce-функция. Функция map-функция разделяет данные на несколько групп, которые затем обрабатываются параллельно. Функция reduce- функция объединяет результаты расчетов в варианты ответов. Для работы применяются обычные компьютерные системы. Позволяет обрабатывать сложные события в больших объемах данных, разделяя информацию на порции, не связанные друг с другом. Например, данные датчиков для каждого участка оборудования могут пересылаться для обработки на отдельный узел.
Массовая
параллельная
обаботка
(MPP)
Обрабатывает данные, распределяя их по множеству узлов, которые выполняют обработку распределенных данных одновременно. На основании полученных данных собирается общий результат.
Используется язык запросов SQL. Также MPP используется на программно-аппаратными комплексами для работы с большими данными.
Обработка
сложных
событий
Онлайн-обработка информации из различных источников, зависящей от времени. Данные, поступающие от различных источников.
Например, данные, поступающие от датчиков, могут лечь в основу предсказания сбоя оборудования, даже если они кажутся совершенно не связанными друг с другом
Hadoop
Параллельная обработки больших объемов информации на множестве узлов стандартного недорогого оборудования.
Информация разделяется на блоки и загружается в файловое хранилище данных, например Hadoop Distributed File System (HDFS), организованное как несколько избыточных узлов на недорогом запоминающем устройстве.
Узел name протоколирует размещение данных на конкретных узлах.
77


78
Данные реплицируются более чем на одном узле, что обеспечивает их сохранность в случае выхода какого-либо узла из строя. Данные можно анализировать с помощью технологии MapReduce. Обработка на узлах идет параллельно. Результаты расчетов обобщаются и загружаются на узел, который впоследствии доступен для анализа с помощью других инструментов.
Возможна загрузка полученных сведений в традиционные хранилища для обработки с помощью транзакций.
NoSQL
СУБД на основе парадигмы NoSQL не используют SQL в качестве языка запросов. Предназначены для работы с данными, не укладывающимися в стандартные таблицы реляционных БД. Они обходятся без перезагрузки индексирования, схемы и ACID-свойств транзакций при создании огромных, реплицированных хранилищ данных для выполнения аналитических работ на экономичном оборудовании, подходящем для работы с неструктурированными данными.
Cassandra
Cassandra представляет собой альтернативу для Hadoop HDFS, – это
БД, выполненная как NoSQL.
Hive
Хранилище данных Hive, преобразующее SQL-запросы в задания map/reduce, которые выполняются с использованием Hadoop.
Business
Intelligence
Перевод транзакционной деловой информации в человекочитаемую форму, пригодную для бизнес-анализа, а также средства для массовой работы с такой обработанной информацией.
Для проведения анализа больших данных используются различные методики, среди них можно выделить наиболее востребованных 19 методик/наборов методик (рис. 14).
78

79
Рис. 14. Наиболее востребованные методики анализа больших данных
Международная консалтинговая компания McKinsey выделяет 11 методов и техник анализа, применимые к большим данным (рис.15).
79
Рис.
15
. Методы и техники анализа, применимые к большим данным

80
Методы и техники анализа, применимые к большим данным:
˗ методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
˗ краудсорсинг – категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
˗ смешение и интеграция данных (англ. data fusion and integration) – набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов, приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
˗ машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) – использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей
(англ. constituent models, ср. со статистическим ансамблем в статистической механике);
˗ искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
˗ распознавание образов;
˗ прогнозная аналитика;
˗ имитационное моделирование;
80


81
˗ пространственный анализ (англ. Spatial analysis) – класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
˗ статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
˗ визуализация аналитических данных – представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
2.2. Примеры использования больших данных
Сейчас Big Data – это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Сфера использования технологий больших данных обширна. К примеру, с помощью больших данных можно узнать о предпочтениях клиентов, об эффективности производства или провести анализ рисков. Big Data – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний, предприятий, организаций.
Сложно выбрать отрасль, в которой можно обойтись без использования больших данных. Так, например, в настоящее время компании, стремящиеся к сокращению издержек, чтобы остаться конкурентоспособными на рынке, должны использовать технологии Big Data, это позволит им получить значительный экономический эффект в виде сокращения затрат на обработку информации в производстве, логистике и управлении.
Большие IT компании то место, где зародилась наука о данных.
Кампания Google, родина парадигмы Map Reduce, создала внутри себя целое
81

82 подразделение, единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются для оптимизации затрат энергии в центрах обработки данных.
Корпорация Apple также не отстает от поискового гиганта и внедряет машинное обучение во все свои продукты. Ее преимущество наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой.
Большие данные позволяют решать большое многообразие различной сложности задач, например, прогноз изменения климата, функциональные проблемы криптографии, расчет безопасности атомных станций, моделирование газодинамического обтекания тел
(самолеты, автомобилестроение, движение масс воздуха в городе, моделирование лекарств, анализ генома (предсказания медицинских рисков на основе данных об активности генов, больших космологических процессов), создание новых материалов, нефтедобыча и другие фундаментальные и прикладные задачи. Приведем несколько примеров использования больших данных.
Большие данные в автопроме. Современный автомобиль – накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что объединяет электромобили Tesla Model S, будет генерировать до 25 Гб данных за час. Сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. Он позволит собирать данные о состоянии водителя, например, о проблеме осанки, о том, как человек сейчас
82


83 сидите. Все сидят по-разному в зависимости от длинны ног, формы спины и, если установить сенсоры в каждое сиденье можно вывести индивидуальный индекс для каждого из людей, что-то вроде отпечатков пальцев. Ученые в
Токио это используют как потенциальную противоугонную систему для машин. Идея в том, что угонщик садится за руль, пытается угнать, но машина опознает, что за рулем водитель без доступа и блокирует двигатель до тех, пока не будет введен пароль на приборной панели. А если бы везде была такая технология, что можно было бы сделать? Могли бы определить индикаторы приборной панели, лучше всего оповещающие о возможности аварии в следующие 5 секунд. И тогда можно задокументировать усталость водителя, на основании этой информации «машина» смогла бы опознать, когда водитель проваливается в позу «усталости», автоматически определить и послать внутренний сигнал: вибрация руля, салонный гудок, внимание следи за дорогой. Такого типа вещи можно делать при документировании все больших аспектов нашей жизни. Использование больших данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) подключает новые автомобили к Toyota Big Data Center. Этот инструмент, использующийся для больших данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.
Большие
данные
в
розничной
торговле.
Понимание пользовательских запросов и таргетинг одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Крупные ритейл-сервисы используют поведенческие данные своих клиентов для продвижения бизнеса (рис. 16). Большие данные в ритейле могут состоять из различных сведений о потребителях, истории их покупок, детальной информации с каждого чека, привлекших внимание скидках, фактов посещении разных магазинов и т.д.
Использование больших данных в маркетинговых исследованиях позволили создавать наиболее точный портрет целевого потребителя,
83

84 предсказание реакции потребителей на маркетинговые «сообщения» и предложения того или иного продукта, персонализацию рекламных сообщений, оптимизацию производства и стратегию распределения, создание цифрового маркетинга и рекламно-просветительских компаний, сохранение большего числа клиентов путём наименьших трат, получение лучшего представления о собственном продукте компании и т. д.
84


Р
ис
. 16
К
руп ные ри тей л- се рви сы
85

86
Для использования аналитики в своей работе, бизнес должен научиться собирать и хранить данные из внутренних и внешних источников. Для этого необходимо определять способы и методы извлечения преимуществ и прибыли от использования больших данных, и разрабатывать стратегию применения больших данных. Топ-5 примеров того, как бизнес осуществляет развертывания для усиления своей конкурентоспособности представлен на рисунке 17.
Крупные компании, как Amazon, Uber и Netflix, используют «big data» для самых разнообразных аспектов бизнеса – от разработки новых продуктов до прогнозирования наиболее популярных фильмов.
Большие данные определяются не только большим объемом, но также особой структурой, перед которой пасует традиционная математика. Для обработки информации такого вида нужны алгоритмы, которые считают в разы быстрее, а главное, могут приспосабливаться под задачу и обучаться самостоятельно, без вмешательства человека.
Большие данные в медицине. Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат – более точная постановка диагноза и усовершенствованные методы лечения. Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует технологии анализа данных для быстрой расшифровки ДНК пациентов и анализа мутаций генетического кода, которые вызывают рак.
Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.
86

Р
ис
.1 7
Т
оп
-5
при м
ер ы то го
, к ак б
из не с ос ущ ес тв ля ет р
аз ве рт ы
ва ни я д ля у
си ле ни я св ое й кон кур ен то сп ос обн ос ти
87

Исследователи недавно задались вопросом биопсии раковых заболеваний и задали компьютеру определить, анализируя данные и процент выживаемости, клетки раковые или нет. И конечно же, при наличии достаточного количества данных посредством алгоритма машинного обучения были выделены 12 признаков лучше всего прогнозирующих, что данный биоптат клеток рака груди действительно раковый, в медицинской литературе упоминалось лишь о 9 из них. Три признака не были известны ранее, но машина их нашла.
Большие данные на страже закона и порядка. За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать большие данные. Общеизвестным фактом является, применяет технологии больших данных, для предотвращения террористических актов и более мелких преступлений.
Большие данные определяют развитие и коммунальной отрасли.
Возможность собирать и анализировать информацию, поступающую со счётчиков учета воды, газа и электроэнергии – это первый и главный шаг на пути к умному потреблению ресурсов как на уровне домохозяйств, так и в масштабе ЖКХ-компаний. Так, например, применение больших данных позволило эстонской распределительной компании Elektrilevi, совместно с
Ericsson реализующей запуск интеллектуальной системы учета электроэнергии, всего за первые два года проекта повысить эффективность на 20% и избежать дорогостоящих ошибок за счет оперативного обнаружения неисправностей.
Банки и страховые компании также обладают возможностью собирать информацию о клиентах, их действиях, финансовых транзакциях и даже перемещениях как по городу, так и по миру. Банк может определить даты важных событий в жизни своих клиентов – свадьба, рождение ребенка, смена работы, переезд и т.д. Эти сведения можно использовать для увеличения продаж и работы над лояльностью клиентов. Так «Сбербанк» использует большие данные и машинное обучение во многих областях, в том
88