Добавлен: 18.06.2023
Просмотров: 39
Скачиваний: 3
3) Обработчик результатов предназначен для обработки и вывода результатов работы категоризатора информации. Выделение данного элемента обусловлено тем, что возможна ситуация, когда анализируемый текст будет отнесен сразу к нескольким категориям. В этом случае обработчик результатов и должен обеспечить гибкую логику работы в зависимости от пользовательских настроек.
Оценку эффективности будем производить по следующим критериям:
- количество ложных срабатываний или ложных тревог (ошибки первого рода);
- пропущенные (необнаруженные) утечки информации (ошибки второго рода);
- трудоемкость (быстродействие) DLP-системы.
Высокое количество ложных срабатываний - главная проблема описанной выше схемы. Это связано со сложностями при работе с отдельными словами естественного языка. Зачастую отдельные слова могут затрагивать совершенно разные категории информации. Чаще всего администратору DLP-систем приходится вручную разбирать огромное количество информации, по ошибке попавшей в защищаемые информационные категории. Метод Байеса, часто применяемый в данной схеме, также приводит к ложным срабатываниям. При его применении исходят из независимости появления слов в тексте, что в корне неверно.
Количество необнаруженных утечек для данной схемы теоретически должно быть небольшим, но при некорректной настройке словарей категорий оно может резко возрасти (например, администратор DLP-системы может облегчить себе работу и уменьшить количество ложных срабатываний, удалив значительное количество слов из словаря категории).
Таким образом, при приемлемой трудоемкости описанная выше типовая DLP-система дает недопустимый высокий процент ошибок и в целом является неэффективной. Основная причина этого - высокая размерность задачи категорирования.
Анализ показал, что наиболее перспективное направление повышения эффективности таких систем - использование семантической информации, имеющейся в тексте. Предлагается двухступенчатая обработка информации. На первом шаге производится категоризация на основе тезауруса текста. В случае если анализ текста с применением тезаурусов дает отрицательный результат, то дальнейший анализ не производится.
На следующем шаге, в процессе работы генератор создает онтологию анализируемого текста и передает ее анализатору, который производит процедуру сравнения с онтологией предметной области.
Предлагаемый метод позволяет существенно снизить размерность задачи (а, соответственно, и ее трудоемкость) и создавать на его основе DLP-системы, эффективно использующие семантику текста для поиска в нем защищаемой информации.
Основная проблема внедрения - это как правило отсутствие классификации данных. Поэтому на первом этапе внедрения система DLP должна проработать в организации в режиме мониторинга до полугода. В этом режиме на базе преднастроенных в соответствии с типом предприятия (промышленные предприятия, медицинские или образовательные учреждения) политик безопасности система может помочь выявить места хранения и способы обработки и передачи конфиденциальной информации.
Для финансовых организаций, которые на текущий момент являются основными потребителями DLP-решений, проблема с классификацией данных нивелируется уже имеющимися в наличии достаточно качественными преднастроенными политиками, предоставляемыми производителями DLP-решений.
После принятия решения о завершении этапа мониторинга, система переводится в режим либо уведомления пользователей и сотрудника безопасности, или в режим блокирования передачи конфиденциальной информации.
Когда система DLP работает в режиме мониторинга, то количество ложных срабатываний в силу отсутствия адаптации политик может насчитывать тысячи. Постепенно применяемые политики безопасности настраиваются в соответствии с реальными потребностями и возможностями организации таким образом, чтобы уже в режиме уведомления, а в дальнейшем и блокировки, количество ложных срабатываний не было зашкаливающим и система реагировала только на конфиденциальную информацию.
Таким образом, полный цикл внедрения решения может занять около года в случае крупной организации.
3.Метод повышения эффективности DLP-систем
По сравнению с известными методами использование онтологий дает следующие преимущества:
1) масштабируемость - количество документов в базе защищаемой информации не существенно влияет на время работы алгоритма
2) сокращение «концептуального несоответствия», т.к. онтология является инструментом, работающим приближенно к человеческому способу мышления
3) упрощение повторного использования знаний - использование уже определенных в других онтологиях понятий, соответственно возможно использовать уже существующие для данной предметной области онтологий
4) семантическая эффективность - при сравнении семантики текста и онтологии предметной области возможно добиться наибольшей точности в категорировании и существенно снизить количество ложных срабатываний
5) готовый набор средств для создания использования существующих онтологий и задания правил анализа - существующие редакторы онтологий (например, Protege) предоставляют удобный инструментарий для создания и редактирования онтологий предметной области
Основным недостатком применения онтологий является значительная ресурсоемкость (трудоемкость системы).
3.1 Основные элементы онтологического категоризатора
Выделим основные элементы категоризатора:
1) Генератор онтологии анализируемого текста (документа). Генератор в автоматическом режиме разбирает анализируемый текст и строит онтологию, отражающую семантику текста. Заметим, что построение онтологии должно вестись по тем же правилам, что и построение онтологии предметной области;
2) Анализатор - проводит сравнение между онтологией анализируемого текста и онтологией предметной областью для определения принадлежности той или иной категории. Для ускорения анализа используются тезаурусы категорий, определяющие, к какой категории точно не относится анализируемый текст. Подробно алгоритм работы анализатора будет описан ниже.
3) Обработчик результатов предназначен для обработки и вывода результатов работы онтологического категоризатора.
4) Онтология анализируемого текста создается для дальнейшего семантического анализа текста.
5) Онтология предметной области создается до ввода в эксплуатацию DLP-системы. В ее создании принимают участие специалисты предприятия, где будет внедряться DLP-система - эксперты по информационной безопасности и специалисты по защищаемым предметным областям. Для создания онтологии используется тот же алгоритм, который применяется для автоматической генерации онтологии анализируемого текста. Разница в том, что создание онтологии предметной области - более сложный и трудоемкий процесс, требующий ручного ввода и участия группы экспертов. Правила, заданные в процессе создания онтологии предметной области, будут применяться затем в автоматической генерации. Наборы правил должны однозначно определять условия отношения к той или иной категории. Онтологии, как правило, определяются триплетами:
В качестве триплета можно привести пример. В анализируемом тексте содержатся сведения о некоем изделии С456, в частности приводится его состав. В процессе автоматической генерации онтологии текста появляются триплеты вида [«Изделие С456», contains, «часть Х»]. Если в онтологии предметной области будет обозначено, что данная информация является конфиденциальной, то DLP-система должна отреагировать соответственно.
6) Тезаурусы категорий. Для каждой из категорий информации до начала работы системы должен быть создан специальный словарь терминов (групп терминов) - так называемый тезаурус категории, который должен определить возможность отнесения текста к данной категории. Соответственно, если по тезаурусу определяется, что текст не относится к какой-либо категории, дальше в алгоритме категория не рассматривается. Тезаурусы также используются при создании онтологии анализируемого текста.
Одна из основных особенностей предлагаемого метода - совместное использование онтологий и тезаурусов. Это необходимо для достижения основной цели метода - снижение при анализе количества ошибок и трудоемкости.
Для уменьшения вероятности появления ошибок второго рода предлагается применить тезаурусы категорий, определяющие набор категорий, к которым может быть отнесен текст. Затем, для каждой из категорий, определенных выше, проводится сравнение онтологий текста и предметной области. Эта процедура предназначена для устранения ошибок первого рода. Последовательность применения онтологических методов связана с двумя факторами:
1) Быстродействие обработки информации с использованием словарей существенно выше, чем при сравнении онтологий
2) Использование одних только тезаурусов приводит к большому количеству ошибок первого рода, т.е. к ложным срабатываниям
Интеграция работы DLP-системы в единый алгоритм с использованием онтологий и тезаурусов позволяет существенно увеличить скорость работы системы и снизить вероятность появления ошибок.
Рассмотрим более подробно алгоритм работы анализатора:
1) Осуществляется поиск терминов тезауруса каждой категории в анализируемом тексте. Предположим, что общее количество категорий равно k. В процессе поиска по тезаурусам установлено, что текст может соответствовать n категориям. Соответственно будем считать, что оставшимся k-n категориям текст не соответствует. Таким образом, в случае k=n уже на данном этапе алгоритм может быть остановлен и принимается решение об отсутствии конфиденциальной информации
2) По оставшимся n категориям проводится сравнение онтологии текста и той части онтологии, которая соответствует категории с 1 до n, т.е. процедура сравнения проводится n раз. Сравнение подразумевает запросы по каждому из правил онтологии предметной области, заданного для данной категории. При обнаружении совпадений происходит сопоставление текста соответствующей категории
3) После завершения работы полученные результаты отправляются на обработку.
Предлагаемый метод позволяет существенно снизить размерность задачи и создавать на его основе DLP-системы, эффективно использующие семантику текста для поиска в нем защищаемой информации.
4.Сравнения DLP- систем
В качестве участников были выбраны наиболее популярные (по версии аналитического центра Anti-Malware.ru на середину 2013 года) на российском рынке информационной безопасности DLP-системы компаний InfoWatch, McAfee, Symantec, Websense, Zecurion и «ИнфосистемДжет».
Для анализа использовались коммерчески доступные на момент подготовки обзора версии DLP-систем, а также документация и открытые обзоры продуктов.
Критерии сравнения DLP-систем выбирались, исходя из потребностей компаний различного размера и разных отраслей. Под основной задачей DLP-систем подразумевается предотвращение утечек конфиденциальной информации по различным каналам.
Два основных режима работы DLP-систем – активный и пассивный. Активный – обычно основной режим работы, при котором происходит блокировка действий, нарушающих политики безопасности, например отправка конфиденциальной информации на внешний почтовый ящик. Пассивный режим чаще всего используется на этапе настройки системы для проверки и корректировки настроек, когда высока доля ложных срабатываний. В этом случае нарушения политик фиксируются, но ограничения на перемещение информации не налагаются.
4.1 Режимы работы DLP-систем
В данном аспекте все рассматриваемые системы оказались равнозначны. Каждая из DLP умеет работать как в активном, так и в пассивном режимах, что дает заказчику определенную свободу. Не все компании готовы начать эксплуатацию DLP сразу в режиме блокировки – это чревато нарушением бизнес-процессов, недовольством со стороны сотрудников контролируемых отделов и претензиями (в том числе обоснованными) со стороны руководства.
Технологии детектирования позволяют классифицировать информацию, которая передается по электронным каналам и выявлять конфиденциальные сведения. На сегодня существует несколько базовых технологий и их разновидностей, сходных по сути, но различных по реализации. Каждая из технологий имеет как преимущества, так и недостатки. Кроме того, разные типы технологий подходят для анализа информации различных классов. Поэтому производители DLP-решений стараются интегрировать в свои продукты максимальное количество технологий.