Файл: Системы базового уровня.pdf

Big Data или по-русски «большие данные», — термин, появившийся совсем недавно – всего шесть лет назад. Но это не значит, что само явление появилось тогда же. Большими данными принято называть огромные массивы информации со сложной неоднородной и\или неопределенной структурой. Иногда о Big Data говорят, как о неструктурированной информации, но это неверно – большие данные всегда имеют структуру, она может быть сложной из-за того, что данные поступают из разных источников и содержат совершенно различные сведения или вовсе неизвестной. То есть, как правило, привести это нагромождение в единую таблицу не представляется возможным.

Большие данные хотя и существуют уже несколько лет, ранее не представляли большой ценности, т.к. их обработка и анализ были затруднены – для этого требовались существенные вычислительные мощности, продолжительное временя и финансовые затраты. Все изменилось, когда появилась технология обработки многогигабайтных массивов информации в быстрой оперативной памяти. Прорыв в этой области связывают с выходом на рынок свободно распространяемой платформы Hadoop, включающей библиотеки, утилиты и фреймворки для работы с Big Data. Компоненты Hadoop используются сегодня в большинстве коммерческих платформ и систем таких компаний, как SAP, Oracle, IBM и так далее.

Сегодня термин Big Data, как правило, используется для обозначения не только самих массивов данных, но также инструментов для их обработки и потенциальной пользы, которая может быть получена в результате кропотливого анализа. Главные характеристики, отличающие Big Data от другого рода данных – три V: volume, velocity, variety. Первая – большие объемы, вторая – необходимость в быстрой обработке и высокая скорость накопления этих данных, третье – разнообразие.

Большие данные в ритейле могут состоять из различных сведений о потребителях, истории их покупок, детальной информации с каждого чека, привлекших внимание скидках, фактов посещении разных магазинов и т.д. Банки и страховые компании также обладают возможностью собирать информацию о клиентах, их действиях, финансовых транзакциях и даже перемещениях как по городу, так и по миру. Банк может определить даты важных событий в жизни своих клиентов – свадьба, рождение ребенка, смена работы, переезд и т.д. Эти сведения можно использовать для увеличения продаж и работы над лояльностью клиентов.

Большие данные определяют развитие и коммунальной отрасли. Возможность собирать и анализировать информацию, поступающую со счетиков учета воды, газа и электроэнергии – это первый и главный шаг на пути к умного потрублению ресурсов как на уровне домохозяйств, так и в масштабе ЖКХ-компаний. Так, например, применение больших данных позволило эстонской распределительной компании Elektrilevi, совместно с Ericsson реализующей запуск интеллектуальной системы учета электроэнергии, всего за первые два года проекта повысить эффективность на 20%, сократить OPEX и CAPEX, и избегать дорогостоящих ошибок за счет оперативного обнаружения неисправностей.

В телекоме большие данные – это вся служебная информация с подключенных устройств, история использования сервисов, геолокационные сведения и даже весь трафик, который может быть проанализирован, вплоть до текстов SMS. У операторов есть доступ к такого рода информации, но по закону «О персональных данных», они не могут использовать ее без согласия владельца устройства. Но могут производить, например, полнотекстовый анализ трафика, очищенного от персональных сведений. Такого рода инструменты пока не используются операторами (разве что только при участии Роскомнадзора, который эксплуатирует систему, позволяющую обнаруживать отдельные ключевые слова и фразы).

Главное, для чего используются большие данные в телекоме – более точная сегментация клиентов по типам, в соответствии с их потребительским поведением и предпочтениями. Маркетологи оператора, зная больше о клиентах, могут делать им более точные предложения, вовлекать их в использование дополнительных услуг, поддерживать лояльность, и тем самым больше на них зарабатывать. Общемировая тенденция такова, что размеры этих клиентских сегментов, которые помогает выявлять Big Data, становятся все точнее и меньше, вплоть до обращения с каждым отдельным клиентом, как с полноценным сегментом. Такой персонифицированный маркетинг – дело будущего, не только для российских операторов, но и для самых передовых иностранных. Но мышление маркетологов, подкрепляемое технологиями, движется именно в этом направлении, т.к. борьба за клиентов усиливается, и выигрывают те, кто умеет наладить личное взаимодействие с каждым потребителем.

Важность инструментов для повышения эффективности работы с клиентами демонстрирует тот факт, что сегмент Big Data растет на фоне спада в ИТ-индустрии в целом. По данным CNews в 2014 году этот рынок вырастет в РФ на 20-25%. Эксперты отмечают, что лишь около 10% компаний в России начали пробовать эти инструменты, тогда как, согласно исследованию Gartner, в мире таких примерно 30%.

Согласно опросу CNews Analytics, проведенному в первом полугодии 2014 года среди представителей банковского сектора, ритейла и телекома 44% компаний не применяют технологии больших данных, 31% применяют, 25% — планируют начать использовать. Аналитики опрашивали только представителей компаний, которые входят в сотню крупнейших в своей отрасли.

Помимо использования Big Data в маркетинговых целях, телеком-операторы (впрочем, как и банки) могут применять такие технологии для обнаружения и предотвращения случаев фрода (мошеннические действия киберпреступников, направленные на воровство финансовых средств). Кроме того, операторы, как обладатели огромного количества информации о потребителях, потенциально могут стать центром экономической экосистемы, предоставляя партнерским компаниям из других сфер доступ к клиентам. В самом простом случае оператор может стать каналом маркетинговых коммуникаций, то есть попросту рассылать рекламу компании-партнера. Но делать это не массово, а адресно, точно направляя сообщение тем людям, которые могут быть в нем заинтересованы. К примеру, скидки на покупки в новом магазине косметики будут предлагаться только женщинам, живущим неподалеку. Тем, кто тратит часы, простаивая в пробках на дорогах, может прийти реклама аудиокниг.

«Большая тройка» операторов мобильной связи – в числе первопроходцев, осваивающих технологии больших данных. По сведениям CNews, «Вымпелком» использует Big Data для повышения качества обслуживания, оптимизации каналов коммуникации с клиентами, аналитики и отчетности, анализа данных для развития сети, анализа М2М-данных, борьбы с мошенничеством и спамом, персонализации услуг. Мегафон – для геоаналитики, в маркетинге и продажах. МТС – в маркетинговых целях и для повышения продаж, для сегментации абонентской базы, персонализации услуг.

Сергей Федечкин, ведущий эксперт систем отчетности оператора «ВымпелКом» сообщает, что компания занимается бизнес-аналитикой уже около 10 лет, однако инструменты Big Data были освоены ею пару лет назад. «Применение технологий Big Data позволяет нам решать несколько задач, в том числе управлять и измерять качество оказания услуг на уровне каждого абонента, бороться со спамом и мобильным мошенничеством, формировать индивидуальные предложения продуктов и услуг, планировать развитие инфраструктуры связи, а также развивать розничную сеть и многое другое. Для работы с «большими данными» мы используем решение компании HortonWorks Data Platform (HDP)», — говорит Сергей Федечкин.

В будущем телекоммуникационным компаниям придется иметь дело с большими данными все чаще – распространение технологий М2М приведет к тому, что к 2020 году на планете будет гораздо больше подключенных устройств, чем людей. Согласно видению компании Ericsson К 2020 году в мире будет насчитываеться более 50 млрд подклбченных устройств. Каждое из таких устройств будет генерировать данные, и ежемесячный трафик только лишь мобильных данных превысит 25 ЭБ. В итоге объемы информации, созданной машинами и людьми, достигнет к 2020 году, по прогнозам IDC, 44 зеттабайт (Зеттабайт = десять в степени 21 байт). И проблемой станет даже их хранение, не говоря уж об обработке. Аналитики IDC считают, что хранилищ данных хватит лишь на 15% от всего объема информации. К апрелю текущего года Россия сгенерировала лишь 155 экзабайт в совокупности, или 2,4% от всего объема мировых данных. И в ближайшие семь лет, по мнению аналитиков, это соотношение сохранится.

Системы базового уровня

Инструменты бизнес-анализа и управления данными — наверное, самые «заметные» компоненты экосистем больших данных в организациях. А уровнем ниже лежат сложные, развернутые локально или в облаке, интегрированные системы, которые служат платформой для приложений и которые обрабатывают громадные объемы данных и предоставляют вычислительную мощь, благодаря чему работают системы Big Data.

Третья часть списка «Big Data 100» CRN/США включает 15 вендоров платформ больших данных, предлагающих локально развертываемые и облачные системы для построения систем обработки больших данных и управления этими системами. Сюда входят хранилища, склады и озера данных.

Amazon Web Services

Главный управляющий: Энди Джесси (Andy Jassy)

AWS стала системой де-факто для управления данными многих бизнес-приложений. Поэтому неудивительно, что компания остается на траектории быстрого роста, сообщив недавно, что вышла на годовой уровень дохода 15 млрд. долл.

Ее предложения на арене Big Data включают аналитические платформы Athena (сервис интерактивных запросов) и Elasticsearch (поисковый сервис), аналитику реального времени Kinesis Firehose, СУБД Amazon DynamoDB (NoSQL-типа) и Amazon Aurora (реляционная СУБД), облачное хранилище данных Redshift и систему бизнес-анализа QuickSight.

В этом году AWS анонсировала новую функцию хранилищ данных, Redshift Spectrum, которая позволит заказчикам выполнять запросы к эксабайтным объемам данных, хранимых в облаке Amazon S3 (1 эксабайт = 1000 петабайт)

BlueData Software

Главный управляющий: Кумар Шриканти (Kumar Sreekanti)
Санта-Клара, шт. Калифорния
Год создания: 2012

Платформа EPIC (Elastic Private Instant Clusters), разработанная компанией BlueData, использует технологию контейнеров Docker и предназначена для развертывания локальной инфраструктуры и приложений обработки больших данных в организациях. Она предоставляет Hadoop-как-услугу и Spark-как-услугу.

Предложенный весной новый релиз BlueData EPIC дает возможность запускать рабочие нагрузки обработки больших данных в гибридной среде, объединяя локальные ресурсы и общедоступное облако.

В январе компания сообщила, что в 2016 г. объем продаж вырос на 426% благодаря таким заказчикам, как State Farm Insurance, Barclays и Panera Bread.

Cazena

Главный управляющий: Прат Моге (Prat Moghe)
Уолтем, шт. Массачусетс
Год создания: 2014

Платформа больших данных как услуга, предлагаемая стартапом Cazena, позволяет переместить всю обработку в облако лишь несколькими щелчками мыши, автоматизируя этот обычно долгий и сложный процесс.

Cazena связывает облачные БД, механизмы аналитики, средства миграции данных, безопасности и др. в единую PaaS, работающую на базе Microsoft Azure и AWS.

Компания предоставляет также облачные услуги озера и витрины данных, а в феврале предложила облачный сервис Data Science Sandbox, позволяющий строить, тестировать и запускать в работу аналитические приложения исследования данных.

Компания привлекла к себе внимание (и финансирование), поскольку главный управляющий Прат Моге и члены правления Джит Саксена (Jit Saxena) и Джим Баум (Jim Baum) были учредителями Netezza, пионера разработки устройств-хранилищ данных (IBM купила эту компанию в 2010 г. за 1,7 млрд. долл.).

Cloudera

Главный управляющий: Том Райли (Tom Reilly)
Пало-Альто, шт. Калифорния
Год создания: 2008

Cloudera — один из ведущих поставщиков дистрибутива Hadoop и разработчик сопутствующих инструментов и технологий для управления кластерами Hadoop и их защиты.

Предложение компании включает ее флагманскую платформу Cloudera Enterprise Data Hub, базы данных Cloudera Analytic DB и Cloudera Operational DB. Только что было объявлено о релизе Cloudera Data Science Workbench, рабочего инструмента для исследователей данных с самообслуживанием.

В этом году Cloudera подала заявку на IPO, готовясь стать открытой компанией; она планирует выпустить 15 млн. обыкновенных акций по цене 15,00 долл. за акцию.

Dell Technologies

Главный управляющий: Майкл Делл
Раунд-Рок, шт. Техас

Купив EMC за 58 млрд. долл., Dell имеет теперь широкий спектр предложений на арене Big Data, включая средства управления (Dell Master Data Management Services) и интеграции данных (Dell Boomi), оснащения инфраструктуры (серверы, СХД и сетевое оборудование), а также инструменты аналитики и бизнес-анализа (благодаря альянсу с NTT Data Services).

Компания предлагает также технологии Big Data на основе соглашений с другими вендорами, в частности инструментарий Hadoop от Cloudera.

ПО прогнозной аналитики Statistica, купленное Dell с компанией StatSoft в 2014 г., было продано частным инвестиционным фирмам вместе с Quest в 2016 г.

Google

Главный управляющий: Сундар Пичаи (Sundar Pichai)
Маунтин-Вью, шт. Калифорния

Платформа Google Cloud включает ряд инструментов управления большими данными и аналитики, в том числе аналитическую БД BigQuery, инструмент Cloud Datalab для визуального изучения и анализа больших массивов данных и управляемый сервис Cloud Dataproc для работы с Hadoop, MapReduce, Spark, Pig и Hive.

Еще один сервис — инструмент очистки и подготовки данных Cloud DataPrep — проходит сейчас закрытое бета-тестирование.

Hewlett Packard Enterprise

Президент и главный управляющий: Мег Уитман
Пало-Альто, шт. Калифорния

Предложения HPE на арене больших данных включают платформы аналитики неструктурированных данных IDOL и расширенной аналитики Vertica, средства управления информацией и руководства данными, оборудование (HPE ConvergedSystem для Big Data и HPE Apollo) и ряд сервисов для работы с большими данными.