Файл: Средства разработки клиентских программ (Обзор готовых программных продуктов).pdf

Результатом данной работы является реализованный программный метод для проведения авторской атрибуции русских литературных произведений. Разработанное ПО выполняет следующие функции:

– считывание выборки текстовых файлов;

– предварительная обработка текстовых данных;

– определение множества признаков на каждом текстовом файле;

– нормализация и стандартизация текстовых признаков;

– проведение анализа авторской атрибуции текстов при помощи методов классификации;

– определение наиболее точных методов классификации;

– определение оптимального набора текстовых признаков;

– определение оптимальной длины исследуемых текстов.

Для тестирования разработанного метода была собрана экспериментальная выборка из 120 русских литературных произведений 20 различных авторов. На данной выборке была проведена экспериментальная апробация предложенного метода, в результате чего была определена лучшая модификация предложенного метода АА, которая впоследствии была оптимизирована гиперпараметрами. Наилучший реализованный подход показал среднее качество в 92 % на всей текстовой выборке. Также было исследовано поведение лучшей модификации на выборках разных размеров, была получена зависимость качества от размера текстов в экспериментальной выборке и определена оптимальная длина исследуемого текста – 45000 символов и минимальная длина - 15000 символов, на которой достигается требуемая точность в 75 %. В результате проверки зависимости качества алгоритма от числа авторов в выборке была найдена зависимость по уменьшению качества метода при увеличении количества классов авторов, однако оптимального количества исследуемых авторов найдено не было, что связано с ограничениями тестовой выборки. Исходя из представленных данных, можно утверждать, что требования, предъявляемые к данной работе, были выполнены полностью.

Перспективным направлением продолжения данной работы может являться попытка сокращения размерности признакового описания текстов для последующего применения новых алгоритмов классификации, такие как случайные леса, градиентный бустинг, нейронные сети. Также в данный момент развивается направление по извлечению новых признаков из текстовых документов, среди которых находятся морфологические конструкции текста [24], использование таких признаков могло бы позволить решать задачу АА на более высоком уровне применительно к большому числу текстовых документов и классов авторов.

СПИСОК ЛИТЕРАТУРЫ

1. Хмелёв Д. В. Распознавание автора текста с использованием цепей А.А. Маркова//Вестник МГУ. Сер. 9, Филология. 2000. N⁰2. С.115-126.

2. Батура Т. В. Методы определения авторского стиля текстов и их программная реализация. // Программные системы и вычислительные методы. 2014. № 2. C. 197-216. DOI: 10.7256/2305-6061.2014.2.11705

3. Хмелёв Д. В. Классификация и разметка текстов с использованием методов сжатия данных // Всё о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html (дата обращения: 13.04.2018)

4. Рогов А. А., Гурин Г. Б., Котов А. А., Сидоров Ю. В., Суровцова Т. Г. Программный комплекс СМАЛТ // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Х Всероссийской научной конференции «RCDL'2008». Дубна, 2008. С. 155–160.

5. Тимашев А. Н. Атрибутор // Текстология. ru. 1999–2007. URL: http://www.textology.ru/atr_resum.html (дата обращения: 13.04.2018)

6. Шевелёв О. Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. канд. тех. наук. Томск, 2006. 18 с.

7. Романов А. С., Мешчеряков Р.В. Идендификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интерактивные технологии: По материалам ежегодной международной конференции «Диалог 2009», 2009, №15. С.432-437

8. Rajul J. «Feature Selection for Effective Text Classification using Semantic Information» // International Journal of Computer Applications, 2015, Vol. 113.

9. Wayne F. «Nested Cross Validation: When (Simple) Cross Validation is not Enough» // Elder Research Data Science & Predictive Analytics, 2014, URL: https://www.elderresearch.com/company/blog/nested-cross-validation (Дата обращения 15.04.2018)

10. Luyckx K., Daelemans W., «Authorship Attribution and Verification with Many Authors and Limited Data»// Proceedings of the 22nd International Conference on Computational Linguistics, pp. 513–520, Manchester, 2015.

11. Bozkurt L., О. Baglıoglu, E. Uyar, «Authorship Attribution Performance of various features and classification methods» // Bilkent University Ankara, Turkey, 2007.er-Verlag, 1998.

12. Eder М., "Style-Markers in Authorship Attribution A Cross-Language Study of the Authorial Fingerprint" // Studies in Polish Linguistics, vol. 6, no. 1732-8160, pp. 99-114, 2011.

13. Raschka S. «About Feature Scaling and Normalization» // sebastianraschka, 2014, URL: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html (Дата обращения 15.04.2018)

14. «Tf-idf weighting» // nlp.stanford.edu, 2008, URL: https://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html (Дата обращения 15.05.2018)

15. «Наивный байесовский классификатор» // bazhenov.me, 2012, URL: http://bazhenov.me/blog/2012/06/11/naive-bayes.html (Дата обращения 18.05.2018)

16. Hastie T. «The Elements of Statistical Learning. Data Mining, Inference and Prediction» // Stanford, USA, California, 2008, 745 с.

17. «Машина опорных векторов» // machinelearning.ru, URL: http://www.machinelearning.ru/wiki/index.php?title=SVM#.D0.9C.D0.B0.D1.88.D0.B8.D0.BD.D0.B0_.D0.BE.D0.BF.D0.BE.D1.80.D0.BD.D1.8B.D1.85_.D0.B2.D0.B5.D0.BA.D1.82.D0.BE.D1.80.D0.BE.D0.B2_.D0.B2_.D0.B7.D0.B0.D0.B4.D0.B0.D1.87.D0.B0.D1.85_.D0.BA.D0.BB.D0.B0.D1.81.D1.81.D0.B8.D1.84.D0.B8.D0.BA.D0.B0.D1.86.D0.B8.D0.B8, (Дата обращения 19.05.2018)

Смотрите также файлы

Сущность организационной культуры и характеристика ее основных элементов.pdf

Предмет, метод предпринимательского права принципы предпринимательского права.pdf

Правовые основы организации нотариата (Общие положения о нотариате в Российской Федерации).pdf

Правовые основы организации нотариата (Организационные основы деятельности нотариата).pdf

Юридические лица как субъекты предпринимательского права (Понятие и признаки юридического лица).pdf

Файл: Средства разработки клиентских программ (Обзор готовых программных продуктов).pdf

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Смотрите также файлы

Информация

Списки файлов

Дополнительно