Файл: Понятие больших данных и области применения 15 Большие данные (Big Data, биг дата).pptx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 09.12.2023

Просмотров: 33

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение в большие данные

Выполнил| Балмакаев Т.М

Введение

2

https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share

Понятие больших данных и области применения

15

Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределено анализировать информацию.

Понятие больших данных и области применения

16

Клиффорд Линч, 2008

Business Intelligence

17

Business Intelligence = BI = Бизнес – аналитика (rus) — это набор IT-технологий для сбора, хранения и анализа данных, позволяющих предоставлять пользователям достоверную аналитику в удобном формате, на основе которой можно принимать эффективные решения для управления бизнес-процессами компании.

Разница подходов

18

Традиционная аналитика

Big data аналитика

Постепенный анализ небольших пакетов данных

Обработка сразу всего массива доступных данных

Редакция и сортировка данных перед обработкой

Данные обрабатываются в их исходном виде

Старт с гипотезы и ее тестирования относительно данных

Поиск корреляций по всем данным до получения искомой информации

Данные собираются, обрабатываются, хранятся и лишь затем анализируются

Анализ и обработка больших данных в реальном времени, по мере поступления

Функции и задачи больших данных

19

Правило VVV — три признака или свойства, которыми большие данные должны обладать:
  • Volume – объем
  • Velocity – скорость
  • Variety - многообразие

Функции и задачи больших данных

20

Функция

Задача

Big Data — собственно массивы необработанных данных

Хранение и управление большими объемами постоянно обновляющейся информации

Data mining — процесс обработки и структуризации данных, этап аналитики для выявления закономерностей

Структурирование разнообразных сведений, поиск скрытых и неочевидных связей для приведения к единому знаменателю

Machine learning — процесс машинного обучения на основе обнаруженных связей в процессе анализа

Аналитика и прогнозирование на основе обработанной и структурированной информации


Источники больших данных

21
  • Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
  • Корпоративные данные — транзакционная деловая информация, архивы, базы данных.
  • Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д. -

Принципы функционирования систем больших данных

22
  • Горизонтальная масштабируемость
  • Отказоустойчивость
  • Локальность данных

Что можно сделать с помощью больших данных?

23

Предсказать победителя Оскара!

Что можно сделать с помощью больших данных?

24

Найти военную базу НАТО

Что можно сделать с помощью больших данных?

25

Диагностировать беременность

Области применения технологий больших данных

26

Анализ данных опросов:

- Мониторинг общественного мнения и анализ социально-

экономической ситуации

- Определение проблем, формирующих кризисную ситуацию

- Анализ реакции населения на внедрение различных федеральных и

региональных программ

- Анализ экономического положения и уровня жизни населения

Области применения технологий больших данных

27

Предвыборные исследования

- Анализ эффективности политической рекламы

- Анализ средств массовой информации

- Выявление наиболее эффективных средств влияния на мнения

различных групп избирателей

- Диагностика предвыборной ситуации

- Анализ основных проблем избирателей

Области применения технологий больших данных

28

Общественная безопасность

- Анализ преступности

- Отслеживание уровня рецидивизма

Области применения технологий больших данных

29

Образование

- Планирование школьных округов

- Отслеживание успеваемости учащихся, выявление факторов

способствующих повышению успеваемости

- Администрирование - контроль за уровнем выполнения

обязательных программ и тестов.

Области применения технологий больших данных

30

Трудоустройство

- Анализ рынка труда - понимание состава и структуры рабочей силы

- Анализ заявлений о приеме на работу - разработка профилей претендентов.

Области применения технологий больших данных



31

Анализ прибыли

 - Оценка соответствия размеров уплаченных налогов и имущества

- Анализ мошенничеств

Области применения технологий больших данных

32

Здравоохранение

- Отслеживание болезней и создание отчетов о случаях заболеваний

- Эпидемиология - выявление причин заболеваний и территории их

распространения, а также контроль заболеваемости

- Медицинская помощь - определение профилей тех, кому часто

требуется медицинская помощь

- Профилактика - выявление групп риска и необходимости

медицинского вмешательства.

Области применения технологий больших данных

33

Окружающая среда

- Анализ экосистем - выяснение факторов, влияющих на здоровье

экосистемы

- Оценка качества воды/воздуха - осуществление контроля за

соответствием качества вод или воздуха имеющимся стандартам.



Области применения технологий больших данных

34

Транспорт

- Планирование наиболее эффективных маршрутов для лучшей

организации транспортных и пассажирских потоков

- Создание отчетов о дорожных происшествиях для выяснения

факторов, влияющих на происшествия

- Моделирование программ поддержания надлежащего состояния

дорожного покрытия, прогнозирование возможного ремонта дорог.

Области применения технологий больших данных

35

Стратегическое планирование

- Анализ удовлетворенности клиентов и изучения изменений потребностей общественности

- Оценка программ - понимание факторов успешной реализации программы

- Профилирование населения - более эффективное направление действия программы на определенные слои населения

- Анализ затрат - выявления наиболее эффективных программ

- Анализ результатов выполнения программ

Технологии больших данных в маркетинге

40
  • Создание точных портретов целевых потребителей.
  • Предсказание реакции потребителей на маркетинговые сообщения.
  • Максимальная персонализация рекламных сообщений.
  • Увеличение кросс-продаж, повторных продаж, ремаркетинга.
  • Поиск и определение причин популярности востребованных товаров и продуктов.
  • Совершенствование продуктов и услуг, повышение лояльности клиентов.
  • Повышение качества обслуживания.
  • Предупреждение мошенничества.
  • Снижение издержек в работе с поставщиками и клиентами.


Большие данные в бизнесе

36

Поставщики инфраструктуры — решают задачи хранения и предобработки данных.

Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения.

Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента.

Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.

Поисковые системы

37

Выгоды использования Big Data в бизнесе

38
  • Упрощается планирование.
  • Увеличивается скорость запуска новых проектов.
  • Повышаются шансы проекта на востребованность.
  • Можно оценить степень удовлетворенности пользователей.
  • Проще найти и привлечь целевую аудиторию.
  • Ускоряется взаимодействие с клиентами и контрагентами.
  • Оптимизируются интеграции в цепи поставок.
  • Повышается качество клиентского сервиса, скорость взаимодействия.
  • Повышается лояльность текущих клиентов.

Драйверы и ограничители Big Data в России

39

Драйверы

Ограничители

Высокий спрос на Big Data для повышения конкурентоспособности с помощью возможностей технологий

Необходимость обеспечивать безопасность и конфиденциальность данных

Развитие методов обработки медиафайлов на мировом уровне

Нехватка квалифицированных кадров

Реализация отраслевого плана по импортозамещению программного обеспечения

В большинстве российских компаний объем накопленных информационных ресурсов не достигает уровня Big Data

Тренд на использование услуг российских провайдеров и системных интеграторов

Новые технологии сложно внедрять в устоявшиеся информационные системы компаний

Создание технопарков, которые способствуют развитию информационных технологий

Высокая стоимость технологий

Государственная программа по внедрению грид-систем — виртуальных суперкомпьютеров, которые распространяются по кластерам и связываются сетью

Заморозка инвестиционных проектов в России и отток зарубежного капитала

Перенос на территорию России серверов, которые обрабатывают персональную информацию

Рост цен на импортную продукцию


Сервисы Big Data

41

«1С-Битрикс BigData»

Сервисы Big Data

42

RTB Media

Сервисы Big Data

43

Alytics

Сервисы Big Data

44

Crossss

Технологии Больших данных:

45
  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Python;
  • Аппаратные решения.

Методы и техники анализа Больших данных

46

Основными методами и техниками анализа, применимыми к Большим данным, являются следующие:
  • Методы класса Data Mining
  • Краудсорсинг
  • Смешение и интеграция данных
  • Машинное обучение
  • Визуализация аналитических данных

Data Mining

Data Mining

48

Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Термин введён

Григорием Пятецким-Шапиро

в 1989 году.

Data Mining

49

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистикараспознавание образовискусственный интеллект, теория баз данных

Модели представления знаний Data Mining

50

Обзор существующих методов Data Mining

51
  • искусственные нейронные сети
  • деревья решений, символьные правила
  • методы ближайшего соседа и k-ближайшего соседа
  • метод опорных векторов
  • байесовские сети
  • линейная регрессия
  • корреляционно-регрессионный анализ
  • иерархические методы кластерного анализа
  • неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
  • эволюционное программирование и генетические алгоритмы
  • метод ограниченного перебора
  • эволюционное программирование и генетические алгоритмы
  • разнообразные методы визуализации данных и множество других методов.

Свойства методов Data Mining

52
  • точность
  • масштабируемость
  • интерпретируемость
  • проверяемость
  • трудоемкость
  • гибкость
  • быстрота
  • популярность