Файл: Монография г. Рыбница 2019 2 Рецензенты.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.12.2023

Просмотров: 308

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

69 мире, многими компаниями большие данные рассматриваются, как возможность получить абсолютное оружие над конкурентами.
В 2013 году определение термина «Big Data» было внесено в
Оксфордский английский словарь (The Oxford English dictionary, OED) [14].
Перевод определения можно трактовать так: «Данные очень большого размера, как правило, в том смысле, что представляют серьезные трудности в материально-техническом обеспечении по манипуляциям и управлению ими, также – направление вычислений с использованием такого типа данных».
Из материалов свободной энциклопедии – «Большие данные» (англ. big data, [ˈbɪɡ ˈdeɪtə]) – обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса
Business Intelligence [6].
Несмотря на широкую распространенность и уже основательное закрепление в современном цифровом обществе, понятие большие данные остается одним из самых дискуссионных в науке. Понятие «Big Data» подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках.
Во всех определениях прослеживается то что «Большие данные» это комплексное понятие, сочетающее в себе:
− непосредственно данные;
− совокупность технологий работы с данными (технология, без которой современный бизнес не может конкурировать на рынке);
− новый взгляд, новая парадигма в науке о данных (data science);
− глобальный феномен, фактов окружающей среды.
Сегодня термин Big Data, как правило, используется для обозначения не только самих массивов данных, но также инструментов для их обработки
69

70 и потенциальной пользы, которая может быть получена в результате кропотливого анализа.
Источники возникновения больших данных. Мы живем в информационный век – век цифровой экономики. Колоссально большое количество источников генерируют данные. Условно источники больших данных можно подразделить на внутренние и внешние (рис. 12). Внутренние источники: ERP, классификаторы, CRM. Внешние источники: социальные сети, Интернет, специализированные, DataSet.
Рис. 12. Источники больших данных
Мы все больше окружаем себя сетью спутников, сканеров, камер и других фиксирующих устройств, создающих огромные массивы неструктурированных данных – это непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов и т.д. Типичный пример больших данных – это информация, поступающая с различных физических установок, например, Большого адронного коллайдера, который производит огромное количество данных, и делает это постоянно (около петабайта данных в секунду, в год 150 зетабайт
70


71 информации, это больше чем от всех остальных источников в мире).
Установка непрерывно выдает большие объемы данных, а ученые с их помощью решают параллельно множество задач.
В настоящее время действуют свыше 400 спутников дистанционного зондирования Земли. Данные многих спутниковых систем находятся в открытом доступе, эта доступность данных, превращает спутниковые системы из «наблюдательных» в «измерительные». Планируется, что к 2026 году на орбите будет действовать более 1000 систем. В Чили к 2024 году планируется завершить строительство крупнейшего в мире телескопа, с помощью которого смогут получать информацию о 40 миллиардов объектов
(свыше 60 тыс. Петабайт). Космический телескоп «Гайя» выведенный в 2013 году на орбиту, собирает данные для создания трехмерного каталога миллиарда астрономических объектов. Каждый день свыше 30 спутников передают данные для контроля окружающей среды объемом свыше 8 террабайт. Ожидается, что после начала работы радиотелескопа (Square
Kilometre
Array
(SKA)
– крупнейшего астрономического проекта современности), он будет генерировать огромное количество сырых данных: около 1 экзобайта в сутки, что соответствует сегодняшнему объему суточного трафика всемирного Интернета или суммарному объему памяти 15 млн. 64 GB IPad-ов. После сжатия данных суточной объем информации радиотелескопа можно уменьшить до 1 петабайта. Миллиарды терабайт данных, которые будет ежегодно генерировать SKA значительно превышают современные базы данных геномики и климатологии.
Авторы исследования, которые представили свой отчёт в журнале PLoS
Biology заявляют, что к 2025 году генетики будут располагать данными о геномах от 100 миллионов до 2 миллиардов человек [9]. Для хранения такого объёма данных необходимо от 2 до 40 эксабайт места. Объём данных, требуемый для хранения информации об одном геноме, в 30 раз превышает размер самого генома. Авторы исследования пришли к выводу, что собираемая генетическая информация превышает прогнозируемые
71

72 ежегодные требования для хранения данных на портале YouTube, которому потребуется 1-2 эксабайта к 2025 году (табл. 3).
Таблица 3
Прогнозируемые наиболее крупные базы данных к 2025 г.
Фазы
Астрономия
Геномика
Twitter
YouTube
Сбор
25 ЗБ/в год
1 ЗБ/в год
0,5-15 милл. твиттов в год
500-900 милл. часов в год
Хранение
50-100 ЭБ/в год 2-40 ЭБ/в год
1-17 РВ/в год
1-2 ЭБ/в год
Нью-Йоркская фондовая биржа генерирует около терабайта данных в день. Объем хранилища социальной сети Facebook каждый день увеличивается примерно на 500 терабайт. Проект Internet Archive прирастает по 20 терабайтами в месяц.
Появление больших данных в публичном пространстве связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе – числе жителей планете.
Все мы генерируем данные с помощью наших мобильных телефонов, датчиков, социальных сетей, транзакций покупки и сигналов GPS. Это потоки информации
Интернет вещей с сенсорными данными, файлов логов, медиа с аудио- и видео файлами, колл- центры с логами звонков и из внутренней информации предприятий и организаций, из сфер медицины и биоинформатики, из астрономических наблюдений и т.д.
Более семи миллиардов, которые собираются в социальных сетях и других проектах, которые агрегируют людей, YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно – огромно.
По объему генерируемых данных среди стран первое место занимает
Китай. В последующие годы отрыв Поднебесной будет только
72


73 увеличиваться. Согласно исследованию, проведенному аналитиками IDC совместно с Seagate, в 2018 году китайские компании и потребители произвели 7,6 Збайт данных, тогда как в США показатель составил 6,9 Збайт.
Прогнозируется, что в 2025 году в этих странах будет сгенерированы данные в объеме 48,6 и 30,6 Збайт соответственно. Что касается глобальных показателей, то в 2018 году на свет появились данные на 33 Збайт, а к 2025- му их будет в мире уже 175 Збайт.
Справляться с таким огромным потоком постоянно поступающей информации становиться всё сложнее. Места хранения данных – лишь часть проблемы, поскольку вычислительные требования для получения, распространения и анализа полученной информации будут ещё выше.
Растет потребность в программном обеспечении, которое позволяет собирать, управлять, организовывать, анализировать, обеспечивать доступ и распространять структурированные, неструктурированные и смешанные данные.
Продажи такого программного обеспечения ежегодно увеличиваются:
2015 г. – $37,5 млрд.
2016 г. – $40,8 млрд.
2017 г. – почти $45 млрд.
2018 г. – $166,4 млрд.
В 2019 г. – достигнет 189,1 млрд долл.
К 2022 г. – вырастет до 274,3 млрд долл.
По оценкам компании Frost & Sullivan в 2021 году общий объем мирового рынка аналитики больших данных увеличится по сравнению с показателем 2016 года более чем в 2,5 раза и составит $67,2 млрд, при ежегодных темпах роста (CAGR) на уровне 35,9%. При этом крупнейшими сегментами рынка станут производственный сектор, финансы, здравоохранение, охрана окружающей среды (ООС) и розничная торговля, сообщили TAdviser в Frost & Sullivan 28 января 2019 года [10].
73

74
Крупнейшим сектором рынка в 2019 году будут ИТ-услуги (77,5 млрд долл.). На приобретение оборудования будет направлено 23,7 млрд долл., а на оплату бизнес-услуг – 20,7 млрд долл. Продажи программного обеспечения для работы с большими данными вырастут до 67,2 млрд долл.
Более 70% из них приходится на традиционные локальные версии ПО, хотя продажи облачных версий будут в ближайшие пять лет расти быстро – в среднем на 32,3% в год. Более перспективными являются облачные технологии, особенно в отраслях профессиональных, личных и потребительских услуг и медийных технологий.
Развитие рынка аналитики больших данных в производственном секторе во многом определяется общей тенденцией «Индустрии 4.0», характерной для создания умных производств. В сегментах розничной торговли, здравоохранения, банковского дела и финансов Big Data Analytics
(BDA) применяется в течение последних нескольких лет. В ближайшем будущем широкое применение получит развитие направления персонализированных услуг. Спрос на аналитику больших данных в сфере
ООС будет высоким, особенно в развивающихся странах Азиатско-
Тихоокеанского региона.
Аналитика больших данных включает анализ крупных, сложных и часто неструктурированных наборов данных, позволяющий выявлять ценную информацию, с точностью определять тенденции, прогнозировать производственные показатели и оптимизировать расходы.
В производственном сегменте и других промышленных отраслях аналитики фиксируют повышенный спрос на BDA: увеличение объема инвестиций в аналитику больших данных здесь обусловлено необходимостью увеличения производительности предприятий и оптимизации ресурсов.
По мнению представителей Frost & Sullivan, применение BDA позволяет обеспечить глубокое понимание клиентских потребностей, что особенно важно для смарт-банкинга. В финансовом сегменте аналитика больших данных используется для персонализации сервисов,
74


75 прогноза/профилактики оттока клиентов, обнаружения мошенничества и т.д., например,
MoneyGram
International, международная компания, предоставляющая платежные услуги, внедрила решение IBM InfoSphere
Identity Insight для контроля финансов и предотвращения мошеннических действий, связанных с переводом средств.
Также аналитика больших данных все чаще используется частными компаниями и правительственными организациями для оценки экологических рисков, оптимизации использования ресурсов и обеспечения соблюдения экологических норм. Global Forest Watch 2.0 – один из проектов по обеспечению сохранности лесов, реализуемый World Resource Institute в сотрудничестве с Google Inc [12]. С момента начала проекта и внедрения решений BDA в 2013 году темпы обезлесения Амазонии снизились на 80% по сравнению с 2004 годом.
К 2025 году также значительно увеличится область использования и количество проектов, внедряющих аналитику больших данных. В частности,
BDA будет использоваться в таких областях, как управление рисками в реальном времени, блокчейн-аналитика и удаленный мониторинг анализируемых объектов, считает эксперт.
Технологии больших данных. Технология Big Data – это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам. Большие данные хотя и существуют уже несколько лет, ранее не представляли большой ценности, т.к. их обработка и анализ были затруднены – для этого требовались существенные вычислительные мощности, продолжительное временя и финансовые затраты. Все изменилось, когда появилась технология обработки многогигабайтных массивов информации в быстрой оперативной памяти. Прорыв в этой области связывают с выходом на рынок свободно распространяемой
75

76 платформы Hadoop, включающей библиотеки, утилиты и фреймворки для работы с Big Data. Компоненты Hadoop используются сегодня в большинстве коммерческих платформ и систем таких компаний, как SAP, Oracle, IBM и так далее.
Наиболее часто указывают в качестве базового принципа обработки больших данных в SN-архитектуру, обеспечивающую массивно- параллельную обработку, масштабируемую без деградации на сотни и тысячи узлов обработки. Кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, в контекст применимости для обработки больших данных также также входят технологии Business
Intelligence и реляционные системы управления базами данных с поддержкой языка SQL (рис. 13, табл. 4).
Рис.13. Топ -9 технологии больших данных
Эксперты предполагают, что будущее рынка инструментов больших данных за конвергенцией различных решений в рамках универсальных
76


77 платформ, а основным направлением его роста станут машинное обучение и нейросети, будет происходить резкий рост числа пользователей, главным образом за счет непрофессиональных аналитиков, которые начинают играть в работе с данными все более важную роль.
Таблица 4.
Технологии больших данных
1   2   3   4   5   6   7   8   9   ...   13