Файл: Принципы построения и функционирования DLP-систем (Мировой DLP-рынок).pdf
Добавлен: 01.04.2023
Просмотров: 154
Скачиваний: 1
Что такое DLP-системы?
Общепринятых расшифровок термина DLP несколько: DataLossPrevention, DataLeakPrevention или DataLeakageProtection, что можно перевести на русский как «предотвращение потери данных», «предотвращение утечки данных», «защита от утечки данных». Этот термин получил широкое распространение и закрепился на рынке примерно в 2006 году. А первые DLP‑системы возникли несколько раньше именно как средство предотвращения утечки ценной информации. Они были предназначены для обнаружения и блокирования сетевой передачи информации, опознаваемой по ключевым словам или выражениям и по заранее созданным цифровым «отпечаткам» конфиденциальных документов.
Дальнейшее развитие DLP‑систем определялось инцидентами, с одной стороны, и законодательными актами государств, с другой. Постепенно, потребности по защите от различных видов угроз привели компании к необходимости создания комплексных систем защиты. В настоящее время, развитые DLP‑продукты, кроме непосредственно защиты от утечки данных, обеспечивают защиту от внутренних и даже внешних угроз, учёт рабочего времени сотрудников, контроль всех их действий на рабочих станциях, включая удалённую работу.
При этом, блокирование передачи конфиденциальных данных, каноническая функция DLP-систем, стала отсутствовать в некоторых современных решениях, относимых разработчиками к этому рынку. Такие решения подходят исключительно для мониторинга корпоративной информационной среды, но в результате манипуляции терминологией стали именоваться DLP и относиться в этому рынку в широком понимании.
В настоящее время основной интерес разработчиков DLP-систем сместился в сторону широты охвата потенциальных каналов утечки информации и развитию аналитических инструментов расследования и анализа инцидентов. Новейшие DLP-продукты перехватывают просмотр документов, их печать и копирование на внешние носители, запуск приложений на рабочих станциях и подключение внешних устройств к ним, а современный анализ перехватываемого сетевого трафика позволяет обнаружить утечку даже по некоторым туннелирующим и зашифрованным протоколам.
Помимо развития собственной функциональности, современные DLP‑системы предоставляют широкие возможности по интеграции с различными смежными и даже с конкурирующими продуктами. В качестве примеров можно привести распространённую поддержку протокола ICAP, предоставляемого прокси‑серверами и интеграцию модуля DeviceSniffer, входящего в «Контур информационной безопасности SearchInform», с LumensionDeviceControl. Дальнейшее развитие DLP‑систем ведет к их интеграции с IDS/IPS-продуктами, SIEM‑решениями, системами документооборота и защите рабочих станций.
DLP‑системы различают по способу обнаружения утечки данных:
- при использовании (Data-in‑Use) — на рабочем месте пользователя;
- при передаче (Data-in‑Motion) — в сети компании;
- при хранении (Data-at‑Rest) — на серверах и рабочих станциях компании.
DLP‑системы могут распознавать критичные документы:
- по формальным признакам — это надёжно, но требует предварительной регистрации документов в системе;
- по анализу содержимого — это может давать ложные срабатывания, но позволяет обнаруживать критичную информацию в составе любых документов.
Со временем, изменились и характер угроз, и состав заказчиков и покупателей DLP‑систем. Современный рынок предъявляет к этим системам следующие требования:
- поддержка нескольких способов обнаружения утечки данных (Datain‑Use, Data -in‑Motion, Data-at‑Rest);
- поддержка всех популярных сетевых протоколов передачи данных: HTTP, SMTP, FTP, OSCAR, XMPP, MMP, MSN, YMSG, Skype, различных P2P‑протоколов;
- наличие встроенного справочника веб-сайтов и корректная обработка передаваемого на них трафика (веб-почта, социальные сети, форумы, блоги, сайты поиска работы и т.д.);
- желательна поддержка туннелирующих протоколов: VLAN, MPLS, PPPoE, и им подобных;
- прозрачный контроль защищенных SSL/TLS протоколов: HTTPS, FTPS, SMTPS и других;
- поддержка протоколов VoIP‑телефонии: SIP, SDP, H.323, T.38, MGCP, SKINNY и других;
- наличие гибридного анализа — поддержки нескольких методов распознавания ценной информации: по формальным признакам, по ключевым словам, по совпадению содержимого с регулярным выражением, на основе морфологического анализа;
- желательна возможность избирательного блокирования передачи критически важной информации по любому контролируемому каналу в режиме реального времени;
- избирательного блокирования (для отдельных пользователей, групп или устройств);
- желательна возможность контроля действий пользователя над критичными документами: просмотр, печать, копирование на внешние носители; желательна возможность контролировать сетевые протоколы работы с почтовыми серверами MicrosoftExchange (MAPI), IBM LotusNotes, Kerio, MicrosoftLync и т.д. для анализа и блокировки сообщений в реальном времени по протоколам: (MAPI, S/MIME, NNTP, SIP и т.д.);
- желателен перехват, запись и распознавание голосового трафика: Skype, IP-телефония, MicrosoftLync;
- наличие модуля распознавания графики (OCR) и анализа содержимого;
- поддержка анализа документов на нескольких языках;
- ведение подробных архивов и журналов для удобства расследования инцидентов;
- желательно наличие развитых средств анализа событий и их связей;
- возможность построения различной отчётности, включая графические отчеты.
Благодаря новым тенденциям в развитии информационных технологий, становятся востребованными и новые функции DLP‑продуктов. С широким распространением виртуализации в корпоративных информационных системах появилась необходимость её поддержки и в DLP‑решениях. Повсеместное использование мобильных устройств как инструмента ведения бизнеса послужило стимулом для возникновения мобильного DLP. Создание как корпоративных так и публичных «облаков» потребовало их защиты, в том числе и DLP‑системами. И, как логичное продолжение, привело к появлению «облачных» сервисов информационной безопасности (securityas a service — SECaaS).
Принцип функционирования DLP-систем
Современная система защиты от утечки информации, как правило, является распределённым программно‑аппаратным комплексом, состоящим из большого числа модулей различного назначения. Часть модулей функционирует на выделенных серверах, часть — на рабочих станциях сотрудников компании, часть — на рабочих местах сотрудников службы безопасности.
Выделенные сервера могут потребоваться для таких модулей как база данных и, иногда, для модулей анализа информации. Эти модули, по сути, являются ядром и без них не обходится ни одна DLP‑система.
База данных необходима для хранения информации, начиная от правил контроля и подробной информации об инцидентах и заканчивая всеми документами, попавшими в поле зрения системы за определённый период. В некоторых случаях, система даже может хранить копию всего сетевого трафика компании, перехваченного в течение заданного периода времени.
Модули анализа информации отвечают за анализ текстов, извлечённых другими модулями из различных источников: сетевой трафик, документы на любых устройствах хранения информации в пределах компании. В некоторых системах есть возможность извлечения текста из изображений и распознавание перехваченных голосовых сообщений. Все анализируемые тексты сопоставляются с заранее заданными правилами и отмечаются соответствующим образом при обнаружении совпадения.
Для контроля действий сотрудников на их рабочие станции могут быть установлены специальные агенты. Такой агент должен быть защищён от вмешательства пользователя в свою работу (на практике это не всегда так) и может вести как пассивное наблюдение за его действиями, так и активно препятствовать тем из них, которые пользователю запрещены политикой безопасности компании. Перечень контролируемых действий может ограничиваться входом/выходом пользователя из системы и подключением USB‑устройств, а может включать перехват и блокировку сетевых протоколов, теневое копирование документов на любые внешние носители, печать документов на локальные и сетевые принтеры, передачу информации по Wi‑Fi и Bluetooth и много другое. Некоторые DLP-системы способны записывать все нажатия на клавиатуре (key‑logging) и сохранять копий экрана (screen‑shots), но это выходит за рамки общепринятых практик.
Обычно, в составе DLP-системы присутствует модуль управления, предназначенный для мониторинга работы системы и её администрирования. Этот модуль позволяет следить за работоспособностью всех других модулей системы и производить их настройку.
Для удобства работы аналитика службы безопасности в DLP-системе может быть отдельный модуль, позволяющий настраивать политику безопасности компании, отслеживать её нарушения, проводить их детальное расследование и формировать необходимую отчётность. Как ни странно, при прочих равных именно возможности анализа инцидентов, проведения полноценного расследования и отчетность выходят на первый план по важности в современной DLP-системе.
Типовая схема функционирования современных DLP-систем:
Рис.1
Можно выделить 3 основных подсистемы DLP-систем:
1) Средства перехвата информации, передаваемой по внешним каналам (за пределы защищаемой автоматизированной системы). К данной категории относятся драйверы для контроля вывода информации на печать, драйвера для контроля подключаемых устройств, межсетевые экраны, контролирующие сетевой трафик и т.д.
2) Категоризатор, составляющий ядро DLP-системы. Его работа заключается в анализе передаваемой информации, в результате которого однозначно определяется категория (степень конфиденциальности информации). Процесс определения категории и конфиденциальности информации на основе смысловой близости принято называть категоризацией информации.
3) Средства реагирования и регистрации. На основании определенной категоризатором степени конфиденциальности DLP-система реагирует в соответствии с системными настройками - производится блокирование передачи конфиденциальной информации, либо производится оповещение (сигнализация) администратора безопасности о несанкционированной передаче (утечке) информации.
Типовая схема работы категоризатора DLP-системы:
Рис.2
Выделим основные элементы категоризатора:
1) Словари категорий предметной области предназначены для категорирования информации по нахождению в анализируемом тексте определенного количества слов из словаря определенной категории. При создании словарей необходимо привлечение специалистов по лингвистическому анализу.
2) Анализатор - ключевой элемент категоризатора, проводящий поиск в анализируемом тексте ключевых слов по словарям для определения принадлежности к той или иной категории. Современные DLP-системы предлагают для повышения эффективности поиска ввод весовых коэффициентов для отдельных ключевых слов в словаре. При анализе используются статистические и вероятностные методы. Как правило, используется метод Байеса для подсчета вероятности того, что анализируемый текст относится к определенной категории. Чаще всего анализ сводится, в лучшем случае, к поиску в тексте ключевых слов по тематическому словарю и категорированию с помощью байесовского метода по заранее установленным весовым коэффициентам.
3) Обработчик результатов предназначен для обработки и вывода результатов работы категоризатора информации. Выделение данного элемента обусловлено тем, что возможна ситуация, когда анализируемый текст будет отнесен сразу к нескольким категориям. В этом случае обработчик результатов и должен обеспечить гибкую логику работы в зависимости от пользовательских настроек.
Оценку эффективности будем производить по следующим критериям:
- количество ложных срабатываний или ложных тревог (ошибки первого рода);
- пропущенные (необнаруженные) утечки информации (ошибки второго рода);
- трудоемкость (быстродействие) DLP-системы.
Высокое количество ложных срабатываний - главная проблема описанной выше схемы. Это связано со сложностями при работе с отдельными словами естественного языка. Зачастую отдельные слова могут затрагивать совершенно разные категории информации. Чаще всего администратору DLP-систем приходится вручную разбирать огромное количество информации, по ошибке попавшей в защищаемые информационные категории. Метод Байеса, часто применяемый в данной схеме, также приводит к ложным срабатываниям. При его применении исходят из независимости появления слов в тексте, что в корне неверно.
Количество необнаруженных утечек для данной схемы теоретически должно быть небольшим, но при некорректной настройке словарей категорий оно может резко возрасти (например, администратор DLP-системы может «облегчить» себе работу и уменьшить количество ложных срабатываний, удалив значительное количество слов из словаря категории).
Таким образом, при приемлемой трудоемкости описанная выше типовая DLP-система дает недопустимый высокий процент ошибок и в целом является (оказывается) неэффективной. Основная причина этого - высокая размерность задачи категорирования.
Анализ показал, что наиболее перспективное направление повышения эффективности таких систем - использование семантической информации, имеющейся в тексте. Предлагается двухступенчатая обработка информации. На первом шаге производится категоризация на основе тезауруса текста. В случае если анализ текста с применением тезаурусов дает отрицательный результат, то дальнейший анализ не производится.
На следующем шаге, в процессе работы генератор создает онтологию анализируемого текста и передает ее анализатору, который производит процедуру сравнения с онтологией предметной области.
Предлагаемый метод позволяет существенно снизить размерность задачи (а, соответственно, и ее трудоемкость) и создавать на его основе DLP-системы, эффективно использующие семантику текста для поиска в нем защищаемой информации.