XXI Открытая конференция студентов-филологов в СПбГУ

Сравнение алгоритмов тематического моделирования на данных русскоязычного корпуса

Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

ауд. 193
2018-04-19
13:10 - 13:25

Ключевые слова, аннотация

Доклад посвящен задаче построения тематических моделей для текстов на русском языке с использованием реализаций алгоритмов из библиотек scikit-learn и gensim для Python. В ходе исследования были проведены эксперименты с несколькими тематическими моделями, а также с их имплементациями в разных библиотеках. В качестве материала исследования служит корпус русскоязычных специальных текстов на лингвистическую тематику из лингвистического энциклопедического словаря (ЛЭС) под редакцией В. Н. Ярцевой и энциклопедии «Кругосвет» общим объёмом 1 333 546 словоформ. 

Тезисы

Тематическое моделирование является одним из важнейших направлений в современной компьютерной лингвистике. Оно позволяет определять, к каким темам относится любой документ и какие слова образуют конкретную тему. Любой текст рассматривается как некоторое сочетание тем, и считается, что существуют условные распределения слов по темам и тем по документам. Более сложные, вероятностные, тематические модели допускают, что один текст может относиться к нескольким темам с разными вероятностями.
Любые тематические модели основаны на переходе из пространства термов в пространство найденных тем. Данный подход помогает разрешать лексическую неоднозначность, синонимию и полисемию слов, а также вносит вклад в решение таких задач, как классификация, суммаризация и аннотирование документов и тематический поиск.
Одна из самых распространенных тематических моделей — латентное размещение Дирихле (Latent Dirichlet Allocation, LDA), поэтому в нашей работе мы в первую очередь рассматриваем именно её, сравниваем различные реализации этой модели в библиотеках scikit-learn и genism и исследуем, как изменяются результаты выдачи в зависимости от задаваемых вручную параметров.
В работе приведены результаты экспериментов на корпусе русскоязычных специальных текстов на лингвистическую тематику из лингвистического энциклопедического словаря (ЛЭС) под редакцией В. Н. Ярцевой и энциклопедии «Кругосвет» общим объёмом 1 333 546 словоформ. Перед работой с тематическими моделями была проведена обработка текстов, в т. ч. лемматизация и удаление стоп-слов.
Дальнейшее направление работы связано с рассмотрением алгоритма Explicit Semantic Analysis (ESA) в качестве тематической модели и сравнением его результатов с результатами LDA и других тематических моделей.