Файл: Технологии больших данных (Big Data) (Большие данные.).pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 05.07.2023

Просмотров: 1893

Скачиваний: 103

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Таким образом, в современном мире возникла проблема больших данных или Big Data. Мировые лидеры в сфере ИТ и бизнеса заняты поиском оптимального решения для управления огромным количеством постоянно прибывающей информации и ее анализа. Они ищут пути извлечения выгоды из данных находящихся в их распоряжении.

Тема больших данных интересна как с практической, так и с теоретической точек зрения. Сами технологии находятся в состоянии непрерывного развития, что позволяет как в режиме реального времени наблюдать за процессом их внедрения и совершенствования, так и непосредственно участвовать в создании новых технологий обработки больших массивов данных.

Также хочется заметить, что расширение познаний и навыков в сфере Big Data является особенно актуальным для студентов специальности бизнес-информатика.

Большие данные.

Описывая специфику больших данных, первым делом упоминают 3V: "volume, variety and velocity" или объем, разнообразие и скорость.

Объем подразумевает не только большое количество хранимой информации, но и ее дополнение, рост, изменение с течением времени.

Разнообразие типов и источников информации всегда было большой проблемой, когда появлялась необходимость свести их в один массив данных. Сегодня это разнообразие только увеличивается.

Скорость оценивается как при создании информации, так и при ее обработке.

Традиционным методом работы с массивами информации являются реляционные базы данных. Однако работа с реляционной базой данных на сотни терабайт - это еще не Big Data, а, например, "обычная" highload-БД. Разница, в данном случае, заключается в архитектуре БД и логике взаимодействия СУБД с хранящейся информацией.

В реляционных БД информация распределена дисперсионно, т.е. имеет место изначально заданная четкая структура, изменение которой в уже работающей базе связано с множеством проблем. Таким образом, в силу своей архитектуры, реляционные БД лучше всего подходят для коротких быстрых запросов, идущих однотипным потоком. Сложный же запрос либо потребует перестройки структуры БД, либо, в угоду быстродействию, увеличения вычислительных мощностей. Это указывает на еще одну проблему традиционных баз данных, а именно на сложность их масштабируемости.


Таким образом, для работы со сложными гибкими запросами необходима среда, позволяющая хранить и обрабатывать неструктурированные данные, поддающаяся масштабированию и допускающая применения распределенных вычислений, где для обработки данных используется не одна высокопроизводительная машина, а целая группа таких машин, объединенных в кластер.

Техники анализа больших данных

На данный момент существует и разрабатывается множество техник анализа больших кластеров информации. Далее будут приведены некоторые из них.

Слияние и интеграция данных (Data fusion and data integration). Набор техник, которые сводят вместе и анализируют информацию из различных источников, с целью получения более достоверной и, в перспективе, полезной информации, чем при использовании единственного источника. Для этого может быть использована обработка цифровых сигналов (Signal processing). Например, данные СМИ, проанализированные с помощью обработки естественного языка (natural language processing) и сопоставленные с данными о продажах, могут выявить механизм воздействия рекламных компаний и другой информации на поведение покупателей.

Интеллектуальный анализ данных (Data mining). Набор техник извлечения потенциально полезной информации из больших массивов данных путем комбинации различных методов, от статистики до машинного обучения (machine learning) и управления базами данных (database management). Они включают в себя ассоциативное обучение (association rule learning), кластерный анализ (cluster analysis), классификацию и регрессию.

Генетические алгоритмы (Genetic algorithms). Техника, используемая для оптимизации и основанная на принципе естественной эволюции: "выживание наиболее приспособленного". Здесь потенциальные решения внесены в код подобно хромосомам и могут составлять комбинации и мутировать. Также часто описываются как тип эволюционных алгоритмов, хорошо подходящих для решения нелинейных задач. Примером может являться улучшение рабочего графика или оптимизация инвестиционного портфеля.

Нейронные сети (Neural networks). Вычислительные модели, вдохновленные нервной системой человека и животных. Они хорошо подходят для нахождения сложных образов, и могут быть использованы для распознавания и оптимизации. Могут включать в себя, так называемое, обучение с учителем (supervised learning), или обучение без учителя (unsupervised learning)


Обработка потоков (Stream processing). Технологии обработки большого количества потоков данных о событиях в реальном времени.

Также широко используется метод визуализации и другие.

Технологии анализа больших данных.

Технологии анализа, в силу перспективности развития этого направления и большой коммерческой отдачи, также широко представлены, и их число продолжает расти. Ниже приведен список и описание наиболее заметных из них.

Business intelligence (BI). Прикладное программное обеспечение, разработанное для сбора, анализа и представления данных. Инструменты IB часто используются для создания стандартных отчетов или для отображения информации в реальном времени на панелях управления.

Cassandra. Бесплатная СУБД с открытым кодом, предназначенная для обращения с большим количеством данных на базе распределенной системы. Изначально разработана в Facebook, сейчас числится как проект the Apache Software foundation

Extract, transform, and load (ETL). Программные инструменты для извлечения данных их внешних источников, адоптации их под стандарт системы и загрузки в базу данных.

Google File System. Фирменная распределенная фаиловая система Гугла.

Hadoop. Бесплатная программная среда для обработки огромных массивов данных и решения определенных типов задач на основе распределенных систем. Разработка вдохновлена Google's MapReduce и Google File System. Изначально разработана в Yahoo!, сейчас числится как проект the Apache Software foundation.

Аналитика Big Data реалии и перспективы в Росси и мире.

О больших данных сегодня не слышал только человек, который не имеет никаких внешних связей с внешним миром. На Хабре тема аналитики Big Data и смежные тематики популярны. Но неспециалистам, которые хотели бы посвятить себя изучению Big Data, не всегда ясно, какие перспективы имеет эта сфера, где может применяться аналитика Big Data и на что может рассчитывать хороший аналитик. Давайте попробуем разобраться.

С каждым годом увеличивается объем генерируемой человеком информации. К 2020 году объем хранимых данных увеличится до 40-44 зеттабайт (1 ЗБ ~ 1 миллиард ГБ). К 2025 году — до примерно 400 зеттабайт. Соответственно, управление структурированными и неструктурированными данными при помощи современных технологий — сфера, которая становится все более важной. Интересуются большими данными как отдельные компании, так и целые государства.
К слову, именно в процессе обсуждения информационного бума и способов обработки генерируемых человеком данных и возник термин Big Data. Считается, что впервые его предложил в 2008 году редактор журнала Nature — Клиффорд Линч.

С тех пор рынок Big Data ежегодно увеличивается на несколько десятков процентов. И эта тенденция, по мнению специалистов, будет держаться и дальше. Так, по оценкам компании Frost & Sullivan в 2021 году общий объем мирового рынка аналитики больших данных увеличится до показателя в $67,2 млрд. Ежегодный рост составит около 35,9 %.


Технологии и методы анализа, которые используются для анализа Big Data:

  • Data Mining;
  • краудсорсинг;
  • смешение и интеграция данных;
  • машинное обучение;
  • искусственные нейронные сети;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • пространственный анализ;
  • статистический анализ;
  • визуализация аналитических данных

Аналитика Big Data в мире.

Сейчас аналитика больших данных используется в более чем 50 % компаний по всему миру. При том, что в 2015 году этот показатель составлял всего лишь 17 %. Big Data активнее всего используется компаниями, которые работают в сфере телекоммуникаций и финансовых услуг. Затем идут компании, которые специализируются на технологиях в здравоохранении. Минимальное использование аналитики Big Data в образовательных компаниях: в большинстве случаев представители этой сферы заявляли о намерении использовать технологии в ближайшем будущем.

В США аналитика Big Data используется наиболее активно: более 55 % компаний из самых разных сфер работают с этой технологией. В Европе и Азии востребованность аналитики больших данных ненамного ниже — около 53 %.

Аналитика Big Data в России.

По мнению аналитиков IDC, Россия является крупнейшим региональным рынком решений по аналитике Big Data. Рост объемов рынка таких решений в Центральной и Восточной Европе достаточно активный, каждый год этот показатель увеличивается на 11%. К 2022 году он достигнет в количественном отношении $5,4 млрд.
Во многом такое бурное развитие рынка обуславливается ростом этой сферы в России. В 2018 году выручка от продажи соответствующих решений в РФ составила 40% от совокупного объема инвестиций в технологии обработки Big Data всего региона.
В РФ больше всего на обработку Big Data тратят компании со стороны банковского и государственного секторов, телекоммуникационной индустрии и промышленности.

  1. Что сдерживает развитие рынка Big Data в Росси.


Высокая стоимость решений и отсутствие быстрых результатов.

Хотя интерес к решениям BI и Big Data растет во всех сферах, основным сдерживающим фактором, особенно в компаниях среднего бизнеса, остается стратегия выживания при отсутствии стратегии развития и рывка, и, как следствие, экономия на ИТ-бюджете. Заказчикам нужны не просто ИТ-технологии, им нужны конкурентоспособные бизнес-идеи и экономический эффект в ближайшем будущем.Инструменты обработки больших данных требуют больших вычислительных мощностей, а следовательно, дороги в закупке, установке и использовании.

Бизнес-пользователи при таких обстоятельствах хотят увидеть возврат инвестиций в оборудование в самой ближайшей перспективе. Однако на деле этого не происходит – как и любые аналитические инструменты, системы Big Data нацелены на оптимизацию бизнеса и не приносят «быстрых» доходов, - отмечает Роман Коновалов, генеральный директор «АйДи – Технологии управления».

Дефицит специалистов.

На рынке по-прежнему наблюдается дефицит специалистов, которые умеют реализовывать проекты в сфере Big Data. В России пока не образовались центры компетенций, которые бы занимались их массовой подготовкой. Поэтому успешные кейсы – это скорее истории отдельных компаний и разработчиков.

Кроме того, в России пока отсутствует профессиональное сообщество, которое взяло бы на себя большую задачу – информирование рынка изнутри.

Запрос есть со стороны как разработчиков, так и заказчиков, а компетенциями обладают отдельные вендоры и специалисты. Я думаю, что стоит использовать как можно больше различных форматов для создания экспертного сообщества. Мы все являемся участниками единого ИТ-пространства, и обмен опытом позволит укрепить потенциал рынка отечественной ИТ-разработки технологий Big Data, - отмечает Тимур Ахмеров, генеральный директор «БАРС Груп»

По мнению гендиректора CleverData Дениса Афанасьева, применение Big Data на практике сильно зависит от компетенций и навыков специалистов, поэтому компаниям важно развивать собственную экспертизу. Для извлечения пользы из данных требуются аналитики, совмещающие навыки и математика, и разработчика, и бизнес-аналитика. Университет этих компетенций позволяет разбираться одновременно в сфере анализа данных, в статистике, учитывать возможности технической реализации проектов и практического применения Big Data.