ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.11.2023
Просмотров: 47
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Тема: Современные технологии анализа больших данных
Аннотация: Статья посвящена обзору современных технологий «больших данных». Приведены основные характеристики, которые отличают эту технологию от других, принципы работы с ней, позволяющие проводить анализ максимально эффективно. Необходимость и перспективы использования технологии Big Data обоснованы, результаты использования этой технологии приняты во внимание. Анализ существующего программного и аппаратного обеспечения, используемого для анализа и обработки больших наборов данных, таких как Hadoop, MapReduce и NoSQL, выявил их преимущества и функции.
Ключевые слова: большие данные, Big Data, Hadoop, MapReduce, NoSQL, статистический анализ, масштабируемость.
Abstract. The article is devoted to the review of modern "big data" technologies. The main characteristics that distinguish this technology from others, the principles of working with it, allowing the analysis to be carried out as efficiently as possible, are given. The need and prospects for using Big Data technology are justified, and the results of using this technology are taken into account. Analysis of existing software and hardware used for analyzing and processing large data sets, such as Hadoop, MapReduce, and NoSQL, has revealed their advantages and functions.
Keywords: big data, Big Data, Hadoop, MapReduce, NoSQL, statistical analysis, scalability.
Вступление. Постоянное ускорение роста данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, деловая информация - это лишь некоторые типы источников, которые могут генерировать огромные объемы данных.
Большие данные сейчас довольно распространены. Не все знают, как быстро и глубоко обработка больших объемов данных меняет различные аспекты жизни общества. Изменения происходят в различных областях, создавая новые проблемы и проблемы, в том числе в области информационной безопасности, где такие важные аспекты, как конфиденциальность, целостность, доступность и многое другое должны быть на переднем плане.
Сегодня человек уже научился использовать новейшие технологии для анализа и обработки информационных потоков, а также для их использования. Эффективная обработка больших объемов собранной информации значительно упрощает поиск оптимальной стратегии развития компании в современных конкурентных условиях.
Методы исследования. Анализ последних исследований и публикаций показал, что тема больших данных по-прежнему неоднозначна, хотя изучается специалистами в различных секторах (экономика, информационные технологии, политика и др.). Влияние больших данных на социальные процессы и корпоративную организацию, в частности, изучали Билл Фрэнкс, Виктор Майер Шонбергер, Кеннет Кукер, Эрик Сигел, Джон Форман и другие. Среди отечественных источников преобладают журналистские материалы, но фундаментальных работ в этом направлении не хватает [6].
Результаты. Большие данные могут сыграть важную роль в принятии решения о том, открывать ли магазин в определенном месте или нет, основываясь на наличии мощного целевого потока людей.
Следовательно, наиболее очевидное практическое применение технологии больших данных находится в области маркетинга. Благодаря развитию Интернета и распространению всех типов устройств связи, данные о поведении (такие как количество звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.
Обсуждение.
Изложение основного материала начнем с того, что большие данные касаются прежде всего огромного количества данных, которые постоянно собираются с помощью устройств и технологий, таких как кредитные карты и карты лояльности клиентов, Интернета и социальных медиа, а также через датчики WiFi и электронные метки. Большая часть этой информации является ограниченно структурированной – то есть это данные, которые соответствуют определенной, заранее установленной модели данных. Как правило, их необходимо адаптировать к целям использования, поскольку данные собираются по критерию ограниченности хранилища, а не исчерпаемости [1].
Определение термина очевидно: «большие данные» означает управление большими объемами данных, а также их анализ. Если вы посмотрите более широко, это информация, которая не может быть обработана традиционными методами из-за больших объемов.
Сам термин Big Data (большие данные) возник весьма недавно.
В 2010 году начали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. По данным Google Trends, растущая популярность термина падает в конце 2011 года. К 2011 году большинство крупных ИТ-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин «большие данные» в своих бизнес-стратегиях. Постепенно аналитики рынка информационных технологий начинают активно исследовать эту концепцию [2].
На сегодняшний день эта концепция приобрела важную известность и активно осуществляются в разных сферах. Однако нельзя с уверенностью сказать, что большие данные - это принципиально новое явление - наоборот, большие источники данных существуют уже много лет. В маркетинге их можно назвать базами данных для покупок клиентов, кредитных историй, образа жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помочь компаниям предвидеть будущие потребности клиентов, оценивать риски, формировать предпочтения потребителей и т. д.
В 2018 году Википедия дает новое определение Big Data:
«Большие данные представляют собой обозначение структурированных и неструктурированных данных крупных размеров и весомого многоообразия, ввергаемых результативной обработке программных средств, которые были горизонтально масштабированы и возникли в завершении 2000-х годов, и альтернативных классических систем управления базами данных и решений Business Intelligence класса решения».
Как видите, в этом есть такие неоднозначные термины, как «огромных», «значительного», «эффективной» и «альтернативных». Даже само название довольно субъективное. Допустим, 4 терабайта (емкость современного внешнего жесткого диска для ноутбука) - это уже большие данные или нет? Википедия добавляет к этому термину следующее: «в обширном смысле «большие данные» представляются социально-экономическим явлением, объединенным с возникновением технологических вероятностей, позволяющих проанализировать достаточно огромные объемы информации в определенных проблемных сферах, глобальный объем данных и модернизаационные последствия этого потока» [4].
Майер-Шенбергер В. и Кукье К. В качестве основного подхода к анализу больших массивов данных различают корреляционный анализ [2]. По их мнению, это основа прогнозного анализа, который использует большие наборы данных. Суть его заключается в ответе на вопрос «Что?», но в то же время не всегда удается ответить на вопрос «Почему?» Метод корреляции оказался малопригодным и малоэффективен при анализе небольших объемов данных. Тем не менее, это оказалось лучшим подходом для анализа больших объемов информации, где точность относительно большой выборки теряет значение.
В настоящее время ситуация изменилась в двух аспектах [3]:
-
возникли уже сложные инструменты и методы сцелью анализа и сравнения различных наборов данных; -
инструменты анализа были дополнены многими новыми источниками данных, благодаря широкому переходу на цифровые технологии, а также новым методам сбора и измерения данных.
Теоретики-исследователи прогнозируют, что технологии больших данных будут активно использоваться в производстве, здравоохранении, торговле, правительстве и других разнообразных областях и отраслях.
Следует отметить, что большие данные не определенный массив данных, а набор методов для их обработки. Характерной особенностью больших наборов данных является не только объем, но и другие категории, которые характеризуют утомительные процессы обработки и анализа данных. Исходные данные для обработки могут быть, например [3]:
-
периодические издания интернет-поведения пользователей; -
Интернет вещей; -
соцсети; -
метеорологические данные; -
Цифровые книжные издания из крупнейших библиотек; -
GPS сигналы от транспортных средств; -
информация о транзакции для клиентов банка; -
данные о местонахождении абонентов мобильной сети; -
информация о покупках в крупных торговых сетях и т. д.
Впоследствии объем данных и число их источников стремительно увеличивается, и на этом фоне возникают новые и существующие методы обработки информации.
Применяемая область больших данных набирает обороты для расширения:
Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только исходя из данных анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
Технологии Big Data могут быть использованы для организации движения беспилотных транспортных средств.
При обработке больших объемов данных вы можете распознавать лица на фотографиях и видео.
Ритейлеры имеют возможность осуществлять технологии больших данных как например в торговых компаниях, где активно используют матрицы данных из соцсетей с целью успешной настройки своих рекламных кампаний, которые ориентированы на максимум для определенного потребительского сегмента. Эта технология активно выполняется при организации избирательных предприятий, в том числе для анализа политических предпочтений в социуме [5].
Применение технологий больших данных актуально для решений класса обеспечения дохода (RA), которые включают в себя механизмы с целью обнаружения несоответствий и углубленного анализа данных, позволяющие вовремя обнаружить возможные потери или искажения информации, которые могут привести к спаду финансовых итогов.
Поставщики телекоммуникационных услуг могут объединять большие данные, включая геолокацию; в свою очередь, эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа целевой и местной рекламы, а также для розничных продавцов и банков.
Так, исследовательская и консалтинговая компания Gartner разработала модель для больших данных в 2001 году. Ее модель «3 V» охватывала объем, скорость и разнообразие данных (английский - объем, скорость, разнообразие) [6].
Gartner формализовал свое определение в 2012 году: «Большие данные - это информационные ресурсы большого объема, высокой скорости и / или большого разнообразия, которые требуют новых форм обработки для обеспечения лучшего принятия решений, обнаружения идеи и оптимизация процесса». Большие данные - это также наука использования больших объемов данных, чтобы помочь человеку или бизнесу принять правильное решение.
Таким образом, большие данные - это возможность получить актуальную для бизнеса информацию из огромного количества различных данных. И все чаще считается, что перед этими 3 V вы должны добавить четвертое значение V - value, значение.
Очевидно, что влияние больших данных на бизнес является частью более глубокого процесса. Если мы примем во внимание работу Карлотты Перес о долгосрочных технологических волнах, то в широком контексте большие данные - это следующая волна после эры коммуникации и информации.
Использование больших данных будет расти в секторах производства, транспорта и логистики с тенденцией развития Industry 4.0 (появление киберфизических систем). Сегодня аналитика данных используется в областях обслуживания клиентов и внутренней операционной эффективности. Если мы примем во внимание растущие тенденции влияния экономики, основанной на данных, то ожидается, что более широкое использование больших данных будет способствовать принятию решений, прогнозированию, моделированию и визуализации.
Технология больших данных включает в себя хранение информации (в настоящее время связанное с облачными технологиями), ее структурирование (с использованием программных решений и платформ), а также управление и анализ (обработка и создание аналитических отчетов). Целью использования больших данных является [6]:
-
улучшить процесс принятия решений; -
управление рисками; -
разработка новых продуктов; -
увеличение маржи и т.д.
Аналитики организации IBS оценили «весь мировой объём данных» следующими величинами:
Таблица 1 – Мировой объём данных по данным аналитиков IBS
Годы | Единица измерения количества информации |
2003 г. | 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт) |
2008 г. | 0,18 зеттабайт (1 ЗБ = 1024 эксабайта) |
2015 г. | более 6,5 зеттабайт |
2020 г. | 40-44 зеттабайт (прогноз) |
2025 г. | этот объем увеличивается еще в 10 раз. |