Файл: Понятие больших данных и области применения 15 Большие данные (Big Data, биг дата).pptx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 09.12.2023
Просмотров: 33
Скачиваний: 4
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Введение в большие данные
Выполнил| Балмакаев Т.М
Введение
2
https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share
Понятие больших данных и области применения
15
Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределено анализировать информацию.
Понятие больших данных и области применения
16
Клиффорд Линч, 2008
Business Intelligence
17
Business Intelligence = BI = Бизнес – аналитика (rus) — это набор IT-технологий для сбора, хранения и анализа данных, позволяющих предоставлять пользователям достоверную аналитику в удобном формате, на основе которой можно принимать эффективные решения для управления бизнес-процессами компании.
Разница подходов
18
Традиционная аналитика | Big data аналитика |
Постепенный анализ небольших пакетов данных | Обработка сразу всего массива доступных данных |
Редакция и сортировка данных перед обработкой | Данные обрабатываются в их исходном виде |
Старт с гипотезы и ее тестирования относительно данных | Поиск корреляций по всем данным до получения искомой информации |
Данные собираются, обрабатываются, хранятся и лишь затем анализируются | Анализ и обработка больших данных в реальном времени, по мере поступления |
Функции и задачи больших данных
19
Правило VVV — три признака или свойства, которыми большие данные должны обладать:
- Volume – объем
- Velocity – скорость
- Variety - многообразие
Функции и задачи больших данных
20
Функция | Задача |
Big Data — собственно массивы необработанных данных | Хранение и управление большими объемами постоянно обновляющейся информации |
Data mining — процесс обработки и структуризации данных, этап аналитики для выявления закономерностей | Структурирование разнообразных сведений, поиск скрытых и неочевидных связей для приведения к единому знаменателю |
Machine learning — процесс машинного обучения на основе обнаруженных связей в процессе анализа | Аналитика и прогнозирование на основе обработанной и структурированной информации |
Источники больших данных
21
- Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
- Корпоративные данные — транзакционная деловая информация, архивы, базы данных.
- Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д. -
Принципы функционирования систем больших данных
22
- Горизонтальная масштабируемость
- Отказоустойчивость
- Локальность данных
Что можно сделать с помощью больших данных?
23
Предсказать победителя Оскара!
Что можно сделать с помощью больших данных?
24
Найти военную базу НАТО
Что можно сделать с помощью больших данных?
25
Диагностировать беременность
Области применения технологий больших данных
26
Анализ данных опросов:
- Мониторинг общественного мнения и анализ социально-
экономической ситуации
- Определение проблем, формирующих кризисную ситуацию
- Анализ реакции населения на внедрение различных федеральных и
региональных программ
- Анализ экономического положения и уровня жизни населения
Области применения технологий больших данных
27
Предвыборные исследования
- Анализ эффективности политической рекламы
- Анализ средств массовой информации
- Выявление наиболее эффективных средств влияния на мнения
различных групп избирателей
- Диагностика предвыборной ситуации
- Анализ основных проблем избирателей
Области применения технологий больших данных
28
Общественная безопасность
- Анализ преступности
- Отслеживание уровня рецидивизма
Области применения технологий больших данных
29
Образование
- Планирование школьных округов
- Отслеживание успеваемости учащихся, выявление факторов
способствующих повышению успеваемости
- Администрирование - контроль за уровнем выполнения
обязательных программ и тестов.
Области применения технологий больших данных
30
Трудоустройство
- Анализ рынка труда - понимание состава и структуры рабочей силы
- Анализ заявлений о приеме на работу - разработка профилей претендентов.
Области применения технологий больших данных
31
Анализ прибыли
- Оценка соответствия размеров уплаченных налогов и имущества
- Анализ мошенничеств
Области применения технологий больших данных
32
Здравоохранение
- Отслеживание болезней и создание отчетов о случаях заболеваний
- Эпидемиология - выявление причин заболеваний и территории их
распространения, а также контроль заболеваемости
- Медицинская помощь - определение профилей тех, кому часто
требуется медицинская помощь
- Профилактика - выявление групп риска и необходимости
медицинского вмешательства.
Области применения технологий больших данных
33
Окружающая среда
- Анализ экосистем - выяснение факторов, влияющих на здоровье
экосистемы
- Оценка качества воды/воздуха - осуществление контроля за
соответствием качества вод или воздуха имеющимся стандартам.
Области применения технологий больших данных
34
Транспорт
- Планирование наиболее эффективных маршрутов для лучшей
организации транспортных и пассажирских потоков
- Создание отчетов о дорожных происшествиях для выяснения
факторов, влияющих на происшествия
- Моделирование программ поддержания надлежащего состояния
дорожного покрытия, прогнозирование возможного ремонта дорог.
Области применения технологий больших данных
35
Стратегическое планирование
- Анализ удовлетворенности клиентов и изучения изменений потребностей общественности
- Оценка программ - понимание факторов успешной реализации программы
- Профилирование населения - более эффективное направление действия программы на определенные слои населения
- Анализ затрат - выявления наиболее эффективных программ
- Анализ результатов выполнения программ
Технологии больших данных в маркетинге
40
- Создание точных портретов целевых потребителей.
- Предсказание реакции потребителей на маркетинговые сообщения.
- Максимальная персонализация рекламных сообщений.
- Увеличение кросс-продаж, повторных продаж, ремаркетинга.
- Поиск и определение причин популярности востребованных товаров и продуктов.
- Совершенствование продуктов и услуг, повышение лояльности клиентов.
- Повышение качества обслуживания.
- Предупреждение мошенничества.
- Снижение издержек в работе с поставщиками и клиентами.
Большие данные в бизнесе
36
Поставщики инфраструктуры — решают задачи хранения и предобработки данных.
Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения.
Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента.
Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.
Поисковые системы
37
Выгоды использования Big Data в бизнесе
38
- Упрощается планирование.
- Увеличивается скорость запуска новых проектов.
- Повышаются шансы проекта на востребованность.
- Можно оценить степень удовлетворенности пользователей.
- Проще найти и привлечь целевую аудиторию.
- Ускоряется взаимодействие с клиентами и контрагентами.
- Оптимизируются интеграции в цепи поставок.
- Повышается качество клиентского сервиса, скорость взаимодействия.
- Повышается лояльность текущих клиентов.
Драйверы и ограничители Big Data в России
39
Драйверы | Ограничители |
Высокий спрос на Big Data для повышения конкурентоспособности с помощью возможностей технологий | Необходимость обеспечивать безопасность и конфиденциальность данных |
Развитие методов обработки медиафайлов на мировом уровне | Нехватка квалифицированных кадров |
Реализация отраслевого плана по импортозамещению программного обеспечения | В большинстве российских компаний объем накопленных информационных ресурсов не достигает уровня Big Data |
Тренд на использование услуг российских провайдеров и системных интеграторов | Новые технологии сложно внедрять в устоявшиеся информационные системы компаний |
Создание технопарков, которые способствуют развитию информационных технологий | Высокая стоимость технологий |
Государственная программа по внедрению грид-систем — виртуальных суперкомпьютеров, которые распространяются по кластерам и связываются сетью | Заморозка инвестиционных проектов в России и отток зарубежного капитала |
Перенос на территорию России серверов, которые обрабатывают персональную информацию | Рост цен на импортную продукцию |
Сервисы Big Data
41
«1С-Битрикс BigData»
Сервисы Big Data
42
RTB Media
Сервисы Big Data
43
Alytics
Сервисы Big Data
44
Crossss
Технологии Больших данных:
45
- NoSQL;
- MapReduce;
- Hadoop;
- R;
- Python;
- Аппаратные решения.
Методы и техники анализа Больших данных
46
Основными методами и техниками анализа, применимыми к Большим данным, являются следующие:
- Методы класса Data Mining
- Краудсорсинг
- Смешение и интеграция данных
- Машинное обучение
- Визуализация аналитических данных
Data Mining
Data Mining
48
Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий
Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Термин введён
Григорием Пятецким-Шапиро
в 1989 году.
Data Mining
49
Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных
Модели представления знаний Data Mining
50
Обзор существующих методов Data Mining
51
- искусственные нейронные сети
- деревья решений, символьные правила
- методы ближайшего соседа и k-ближайшего соседа
- метод опорных векторов
- байесовские сети
- линейная регрессия
- корреляционно-регрессионный анализ
- иерархические методы кластерного анализа
- неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
- эволюционное программирование и генетические алгоритмы
- метод ограниченного перебора
- эволюционное программирование и генетические алгоритмы
- разнообразные методы визуализации данных и множество других методов.
Свойства методов Data Mining
52
- точность
- масштабируемость
- интерпретируемость
- проверяемость
- трудоемкость
- гибкость
- быстрота
- популярность