Файл: Введение анализ проблемы и ее современного состояния.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 01.12.2023

Просмотров: 37

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Тема: Программное обеспечение тематического моделирования научных текстов на основе модели, учитывающей временной фактор как непрерывную величину.


ВВЕДЕНИЕ

1. Анализ проблемы и ее современного состояния

1. Анализ предметной области и выявление проблемы

2. Анализ методов в области тематического моделирования

3. Анализ существующих программных решений

4. Цель и задачи

2. Концептуальные положения и формулирование требований к программному решению по реализации тематического моделирования

1. Формальная постановка задачи и структура ее решения

2. Постановка задачи тематического моделирования

3. Концептуальные положения реализации тематического моделирования

4. Требования к программному обеспечению(сюда войдут UMLмодели +Архитектура программного обеспечения и диаграмма размещения, +Диаграмма компонентов, +Диаграмма деятельности)

3. Математическое, (методическое), информационное, программное обеспечение

1. Методика определение тематики текста (Может быть лучше математическое обеспечение)

2. Сбор текстов из открытых источников и хранение данных в озере данных

3. Методика (Алгоритм? Процесс) поиска похожих статей и мониторинга научных публикаций

4. Программное (?и аппаратное?) обеспечение ИС (Выбор технологии реализации ИС и его обоснование, Описание программного продукта, Описание пользовательского интерфейса)
4. Проведение эксперимента и оценка предложенного решения

1.Подготовка обучающего набора данных (+Предварительная обработка данных)

2. Проведение вычислительного эксперимента

3. Интерпретация результатов эксперимента

4. Оценка качества решения ((Тестирование ПО, Метрическая оценка качества программного продукта, Оценка интерпретируемости ПО).

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А

ПРИЛОЖЕНИЕ Б

ПРИЛОЖЕНИЕ В

Введение

В связи с бурным развитием массовой и деловой коммуникации, ростом информационных потоков, интенсивным накоплением информации, предназначенной для систематизации, хранения и использования, актуальной становится задача извлечения информации (информационного поиска) и ее анализа. Подобный анализ позволяет собирать основную информацию о тематике, направленности и настроении текстов, что в дальнейшем упрощает автоматизированную работу с ними, такую как каталогизация, поиск и сравнение. Наиболее популярным направлением извлечения информации из текстов на данный момент является использование различных статистических методов для обработки текста, например, построение частотных словарей, конкордансов (словарей словосочетаний), сравнение с использованием выделенных сущностей и т. п. Одним из таковых методов является метод тематического моделирования, позволяющий построить модель коллекции текстовых документов, определяющую тематическую направленность каждого из них. В 1958 году Герхард Лисовски и Леонард Рост завершили работу по составлению каталога религиозных текстов на иврите, призванных помочь учёным определить значения терминов, которые были давно утрачены [20]. Путём кропотливой ручной работы они собрали воедино все возможные контексты, в которых появлялся каждый из терминов. Следующей задачей было научиться игнорировать несущественные различия в формах слов и выделять те различия, которые влияют на семантику. Замыслом авторов было дать возможность исследователям языка проанализировать различные отрывки и понять семантику каждого термина в его контексте. Трудности, с которыми столкнулись Лисовски и Рост полвека назад, часто возникают и сегодня при автоматическом анализе текстов. Одна и та же концепция может выражаться любым количеством различных терминов (синонимия), тогда как один термин часто имеет разные смыслы в различных контекстах (полисемия). Таким образом, необходимы способы различать варианты представления одной концепции и определять конкретный смысл многозначных терминов. Кроме того, нужно уметь представлять
данные в доступной для человека форме, чтобы дать возможность понять неизвестный ему смысл термина. Теоретически обоснованным и активно развивающимся направлением в анализе текстов на естественном языке, призванным решать перечисленные задачи, является тематическое моделирование коллекций текстовых документов. Построение тематической модели может рассматриваться как задача одновременной кластеризации документов и слов по одному и тому же множеству кластеров, называемых темами. В терминах кластерного анализа тема — это результат би-кластеризации, то есть одновременной кластеризации и слов, и документов по их семантической близости. Обычно выполняется нечёткая кластеризация, то есть документ может принадлежать нескольким темам в различной степени. Таким образом, сжатое семантическое описание слова или документа представляет собой вероятностное распределение на множестве тем. Процесс нахождения этих распределений и называется тематическим моделированием [27]. Как правило, количество тем, встречающихся в документах, меньше количества различных слов во всем наборе. Поэтому скрытые переменные — темы — позволяют представить документ в виде вектора в пространстве скрытых (латентных) тем вместо представления в пространстве слов. В результате документ имеет меньшее число компонент, что позволяет быстрее и эффективнее его обрабатывать. Таким образом, тематическое моделирование тесно связано с другим классом задач, известным как уменьшение размерности данных [14]. Кроме того, найденные темы могут использоваться для семантического анализа текстов. Задача извлечения скрытых тем из коллекции текстовых документов имеет множество применений.

Цели и задачи диссертационной работы. Целью диссертационной работы является разработка Программное обеспечение тематического моделирования научных текстов на основе модели, учитывающей временной фактор как непрерывную величину.

1. Анализ проблемы и ее современного состояния

1.1. Анализ предметной области и выявление проблемы

Тематическое моделирование — это способ построения модели корпуса текстов, отражающий переход от совокупности документов, совокупности слов в документах к набору тем, характеризующих содержание данных документов. Тематические модели — это модели со скрытыми переменными, для выявления которых лучше всего подходит нечеткая кластеризация, при которой любое слово или документ с некоторой вероятностью относится к нескольким темам [1]. Наиболее популярные в настоящий момент методы тематического моделирования можно разделить на две основных группы — алгебраические и вероятностные (генеративные) [2;4]. К алгебраическим моделям относятся стандартная векторная модель текста VSM (Vector Space Model) и латентно-семантический анализ LSA (Latent Semantic Analysis), а среди вероятностных наиболее популярными являются вероятностный латентно-семантический анализ pLSA (probabilistic LSA) и латентное размещение Дирихле LDA (Latent Dirichlet Allocation). Далее приведен краткий анализ некоторых методов. Векторная модель текстов — это способ представления коллекции документов в виде векторов из общего для всей коллекции векторного пространства. Данная модель используется для решения множества задач быстрого анализа документов, а также для составления таблиц поиска, классификации и кластеризации, и выступает как основа для множества других алгоритмов [2]. В данной модели, документ рассматривается как неупорядоченное множество термов — слов и дополнительных элементов, из которых состоит текст, исключая знаки препинания. Для каждого документа строится матрица терм-документ, где строка — это уникальное слово, а столбец — документ. Значением ячейки данной матрицы является вес данного слова в документе, способ вычисления которого может изменяться в зависимости от алгоритма. Данная модель достаточно популярна для решения задач сравнения текстов между собой, однако в изначальном варианте работает недостаточно быстро для больших объемов документов, а также занимает достаточно много памяти. Развитием данного метода является латентно-семантический анализ [2]. Латентно семантический анализ (ЛСА, LSA) — это статистический метод обработки текстовой информации на естественном языке, позволяющий определить взаимосвязь между коллекциями документов и терминами, в них встречающимися. В основе данного метода лежит принцип факторного анализа, в частности выявление латентных связей изучаемых явлений и объектов. При классификации и кластеризации документов, данный метод позволяет извлечь контекстно-зависимые значения лексических единиц [2]. Основной алгоритм данного метода можно разделить на четыре шага: предобработку, нахождение весов слов любым методом, например, с помощью алгоритма tf-idf, построение весовой матрицы, разложение матрицы методом сингулярного разложения (англ. singular value decomposition,



SVD). Результатом работы алгоритма будет являться матрица, визуализация которой позволит отразить общую семантическую близость документов друг к другу. Основными достоинствами данного метода можно считать высокое качество определения тематик в случае, если корпус текстов достаточно большой, а также возможность нахождения неочевидных семантических зависимостей между словами. К недостаткам данного алгоритма относятся высокая вычислительная сложность и низкая скорость работы, требующая повторного вычисления всех метрик для всего корпуса в случае добавления нового документа, а также высокие требования к корпусу, который должен состоять из множества разнообразных по тематикам текстов. Вероятностный латентно-семантический анализ — это статистический метод анализа корреляций двух типов данных. В общем смысле, данный метод является развитием латентно-семантического анализа, однако в отличие от своего предшественника, который по своей сути являлся алгоритмом построения векторного представления с последующим снижением его размерности, вероятностной латентно-семантический анализ основан на смешанном разложении и использовании вероятностной модели, что позволяет более качественно определять возможные тематики документов [4]. К достоинствам данной модели относительно алгебраических можно отнести возможность нахождения вероятности отношения каждого документа к каждой из представленных тем, с последующей группировкой, что является достаточно трудоемкой задачей для алгоритма LSA. Недостатками данной модели являются те же недостатки, присущие и LSA, к которым относится необходимость перестройки всех модели в случае добавления нового документа, а также линейная зависимость количества параметров от количества документов. Латентное размещение Дирихле — применяемая в информационном поиске порождающая модель, позволяющая объяснить результаты наблюдений с помощью неявных (латентных) групп. Данная модель является расширением модели pLSA, и устраняет основные ее недостатки путем использования распределения Дирихле в качестве априори распределения, в результате чего набор тематик получается более конкретный и четкий [1]. Данная модель позволяет уйти от недостатков pLSA, таких как «переобучаемость» и отсутствие закономерности при генерации документов из набора полученных тем, что значительно улучшает итоговую выборку [2].


В результате рассмотрения некоторых основных методов тематического моделирования можно прийти к выводу, что методы, основанные на вероятностных моделях наилучшим образом пригодны для решения поставленной задачи, однако требуют высоких вычислительных затрат при реализации в исходном виде. Метод LDA является наиболее сложным, и при этом позволяет достичь наилучших результатов, и избежать основных недостатков обычного pLSA.

Результатом вероятностного тематического моделирования является конечное множество тем, каждая из которых описывается вероятностным распределением на множестве слов. Важным свойством темы является её интерпретируемость. Слова, имеющие большую вероятность в данной теме, должны относиться к одной предметной области и быть семантически связанными. Тема считается интерпретируемой, если, рассматривая наиболее частотные слова темы, эксперт может сказать, о чём эта тема, и дать ей определённое название [1]. Если все темы (или почти все) интерпретируемые, то о такой модели говорят, что она в целом является интерпретируемой. В таком случае модель может быть полезна для понимания тематической структуры коллекции. Интерпретируемость является трудно формализуемой характеристикой. Существуют различные экспертные и вычислительные методики её количественного оценивания [2]. Развитие вероятностного тематического моделирования началось с работы Т.Хофманна [3], в которой была предложена модель вероятностного латентного семантического анализа (Probabilistic Latent Semantic Analysis, PLSA). Построение тематической модели является некорректно поставленной задачей стохастического матричного разложения, которая имеет бесконечное множество решений. Для 7 доопределения постановки задачи и выбора наиболее подходящего решения необходимо вводить дополнительные ограничения на модель. Следующей важной вехой стала модель латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) [4], основанная на байесовской регуляризации искомых дискретных распределений с помощью априорных распределений Дирихле. В последующие годы на основе PLSA и LDA были разработаны сотни специализированных моделей, отличающихся способами регуляризации, структурой исходных данных и матричного разложения [5—7]. Аддитивная регуляризация тематических моделей (ARTM) позволяет комбинировать регуляризаторы для создания моделей с заданными свойствами [8; 9]. Это многокритериальный подход, основанный на оптимизации взвешенной суммы основного критерия (логарифма правдоподобия) и некоторого количества дополнительных критериев-регуляризаторов. Многокритериальный подход является ответом на практическую потребность строить модели, обладающие целым рядом необходимых свойств одновременно [10]. Соответственно, в каждой конкретной задаче тематического моделирования может быть много не только оптимизационных критериев, но и метрик качества, с помощью которых валидируется (оценивается) построенная модель. В частности, в [9] было показано, что комбинирование регуляризаторов сглаживания, разреживания, декоррелирования и отбора тем позволяет одновременно улучшить несколько метрик качества (разреженность, различность и интерпретируемость тем) без заметного ухудшения основного критерия правдоподобия (или перплексии) модели. Тематические модели для разведочного информационного поиска, в дополнение к этим свойствам, должны быть также мультимодальными (учитывать не только слова, но и биграммы, теги, категории, авторство документов) и иерархическими (разделять крупные темы на более мелкие подтемы) [11]. Построение таких моделей требует не только выбора множества модальностей и регуляризаторов, но и подбора различных гиперпараметров. На основе теории аддитивной регуляризации тематических моделей была разработана библиотека тематического моделирования с открытым кодом BigARTM [12; 13]. Свойство аддитивности регуляризаторов позволило реализовать в BigARTM модульный подход, когда пользователь выбирает из библиотеки нужный ему набор регуляризаторов для построения модели с требуемыми свойствами. Возможность конструирования новых композитных моделей из «готовых блоков» существенно отличает BigARTM от других средств тематического моделирования, 8 основанных на теории байесовского обучения, в которой каждая новая модель требует проведения уникальных математических выкладок (байесовского вывода) и, как следствие, разработки нового программного кода.
Несмотря на модульность, гибкость, масштабируемость и высокую производительность [10], практическое применение библиотеки BigARTM наталкивается на ряд трудностей. Пользователь должен хорошо разбираться в теории ARTM, чтобы грамотно выбрать стратегию регуляризации, то есть последовательность включения регуляризаторов, затем подобрать число тем, коэффициенты регуляризации для каждого регуляризатора и другие гиперпараметры. Эта работа связана с проведением серий вычислительных экспериментов, которые требуют тщательного планирования, журнализации, валидации, визуализации и критического осмысления промежуточных результатов. Таким образом, BigARTM перекладывает на пользователя значительный объём работы, требующей пристального внимания и высокой квалификации. Актуальной задачей является создание технических средств для автоматизации экспериментов по построению аддитивно регуляризованных тематических моделей, их валидации и выбора лучшей модели по заданной совокупности метрик качества. Тематическое моделирование является полезным инструментом в цифровых гуманитарных исследованиях (digital humanities) [14; 15]. Однако процессы построения, валидации и выбора тематических моделей практически не алгоритмизированы [15]. Большое прикладное значение имеет разработка новых методов визуализации, автоматической валидации и выбора моделей [16]. Также исследователи сталкиваются с неустойчивостью [17] и неинтерпретируемостью тем [18]. Известно, что настройка гиперпараметров модели может повысить её устойчивость [19], однако на практике она выполняется редко, и для неё нет единой принятой методологии [19; 20]. Настройка гиперпараметров может помочь и с интерпретируемостью тем, особенно в рамках подхода ARTM. Известные регуляризаторы, такие как регуляризатор декоррелирования, способствуют повышению различности и интерпретируемости тем [21]; также можно использовать регуляризатор, напрямую оптимизирующий заданный критерий, как это было сделано в [22] для критерия средней когерентности тем. К сожалению, интерпретируемости трудно дать формальное определение. Попытки определить плохие темы через расстояние до известных «мусорных» 9 тем или через низкие значения когерентности дают лишь срез проблематичных тем и имеют ограниченную область применимости [18]. Системный подход к измерению интерпретируемости предполагает оценивание каждой темы по нескольким критериям качества [23]. Таким образом, принятые методологии перекладывают ответственность за подбор гиперпараметров на исследователя; при этом процедура подбора остаётся нерегламентированной, что создаёт высокий барьер входа для неспециалистов. В обзорной монографии [7] подчёркивается важность снижения порога входа и более жёсткой регламентации процесса моделирования: «первоочередная исследовательская задача в тематическом моделировании... сделать его более доступным». Мы видим, что важными нерешёнными проблемами являются: обеспечение интерпретируемости моделей, подбор гиперпараметров и стандартизация процесса построения тематической модели для широкого класса пользовательских прикладных задач