Файл: Современные технологии анализа больших данных.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.11.2023

Просмотров: 49

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


1) большие данные генерируются без вмешательства человека, что невозможно при традиционной обработке данных;

2) они часто соотносятся с новыми источниками данных, то есть данные могут быть получены в прошлом и в реальном времени;

3) Большие источники данных не были созданы как удобные для пользователя.

Таким образом, большие наборы данных оптимизируют сбор данных, сокращают время и ресурсы, необходимые для того, что в настоящее время очень важно. Кроме того, при работе с большим количеством информации традиционные методы не всегда эффективны, потому что [6]:

1) информация может находиться в разных хранилищах;

2) часто отсутствие структуры данных;

3) информация постоянно обновляется.

Следовательно, термин «большие данные» появился в социологии сравнительно недавно, но он уже популярен и является объектом пристального внимания ученых.

Некоторые видят в них угрозу для эмпирической социологии, но они скорее помощники и облегчают получение информации об обществе и происходящих там процессах. Большие данные имеют несколько преимуществ [1]:

  • автоматическая регистрация поведения, то есть генерируется без вмешательства человека и минимизирует влияние человеческого фактора;

  • отсутствие случайных выборок и непосредственная работа с населением, постоянный сбор информации, включая возможность получить информацию из прошлого и новых источников данных;

  • возможность быстрой обработки.

Если мы сравним преимущества и недостатки этого метода, его преимущества пересекаются с негативными аспектами. Однако для исследования общественного мнения более ошибочно использовать только «Большую дату», так как рекомендуется исследовать комбинацию количественных и качественных методов, которые обеспечивают более репрезентативные данные.

Хранение больших данных не всегда приносит пользу. Хранение огромного количества данных, описывающих некоторые легко наблюдаемые события, не всегда приводит к полезному пониманию реальности. Это также относится к анализу запасов, каналов Twitter, медицинских данных, данных CRM или мониторингу комплекса оборудования для диагностических служб.

Допустим, надежный список потенциальных покупателей товаров, а также демографическая информация и информация о чистой стоимости товаров для поставщиков могут быть гораздо более ценными, чем огромное количество данных о кликах на различных веб-сайтах интернет-магазинов. При мониторинге работы электростанций было обнаружено, что наблюдение за определенной информацией и изменениями, которые происходят с некоторыми параметрами (или их комбинациями), более информативно для последующего представления, чем мониторинг тысяч параметров потока данных в секунду.


Скорость обновления данных и «текущий» временной интервал. Например, для поставщиков аксессуаров для дома было бы более важно получить «сигнал» за месяц или два до покупки дома, чем информацию в режиме реального времени после покупки, когда потенциальный клиент ищет аксессуары на различных веб-сайтах.
Выводы. 
Анализ больших данных - достаточно сложная задача, требующая специальных инструментов и навыков обработки. Они основаны на математических алгоритмах, теории вероятностей и многих других инструментах, которые, если их применять к большим данным, могут принести больше плода тем, кто не проигнорировал это относительно новое явление в информационном пространстве в Интернете. Учитывая быстрый рост объема больших данных, можно смело предположить, что научные области, связанные с их анализом, не потеряют актуальности в ближайшем будущем.

К сожалению, пока, по мнению экспертов, Россия отстает от ведущих стран мира в применении технологий больших данных примерно на 3-5 лет. Причины этого отставания - низкий уровень автоматизации, фрагментация собранных данных, недостаточное количество реальных проектов. Используемые на Западе технологии не всегда могут быть адаптированы к российским реалиям. Кроме того, существует явная нехватка специалистов по Big Data.

Для внедрения технологий больших данных требуется не только техническая, но и организационная поддержка. Первое касается организации извлечения данных, хранения данных, стандартизированных рабочих станций для анализа, цифрового моделирования, оптимизации и прогнозирования. Вторая область потребует формирования соответствующих квалификаций в секторе больших данных. Специалисты с новой квалификацией «Инженеры данных», «Data Scientist» необходимы для моделирования, оптимизации и прогнозирования. Кроме того, потребуются обучающие курсы для техников Big Data, специалистов по планированию и бизнес-менеджеров.

Однако потенциал российского рынка больших данных огромен, и темпы его развития в ближайшие годы будут в несколько раз выше, чем на мировом рынке.

Литература


  1. Горелова А. А. Большие данные и направления их использования в маркетинге // Актуальные проблемы гуманитарных и естественных наук. - 2017. - № 4-2. - С. 11-16.

  2. Иванов П.Д., Вампилов В.Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: Наука и инновации, 2014. Вып. 8.

  3. Медетов А.А. Термин Big Data и способы его применения // Молодой ученый, 2016. - № 11. - С. 207-210.

  4. Одинцов А. В. Социология общественного мнения и вызов Big Data // Мониторинг общественного мнения: Экономические и социальные перемены. - 2017. - № 3. - С. 30-43.

  5. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: Экономические и социальные перемены. - 2015. № 2. - С. 44-54.

  6. Большие данные (Big_Data).// Википедия, 2020. [Электронный ресурс]. Режим доступа: http://ru. (дата обращения: 14.02.2020).