Сравнение алгоритмов тематического моделирования на данных русскоязычного корпуса
Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-19
13:10 -
13:25
Ключевые слова, аннотация
Доклад посвящен задаче построения тематических
моделей для текстов на русском языке с использованием реализаций алгоритмов из
библиотек scikit-learn и gensim для Python. В ходе исследования были проведены эксперименты
с несколькими тематическими моделями, а также с их имплементациями в разных
библиотеках. В качестве материала исследования служит корпус русскоязычных
специальных текстов на лингвистическую тематику из лингвистического энциклопедического словаря
(ЛЭС) под редакцией В. Н. Ярцевой и
энциклопедии «Кругосвет» общим объёмом 1 333 546
словоформ.
Тезисы
Тематическое
моделирование является одним из важнейших направлений в современной компьютерной
лингвистике. Оно позволяет определять, к каким темам относится любой документ и
какие слова образуют конкретную тему. Любой текст рассматривается как некоторое
сочетание тем, и считается, что существуют условные распределения слов по темам
и тем по документам. Более сложные, вероятностные, тематические модели допускают,
что один текст может относиться к нескольким темам с разными вероятностями.
Любые тематические модели основаны на переходе из пространства термов в пространство найденных тем. Данный подход помогает разрешать лексическую неоднозначность, синонимию и полисемию слов, а также вносит вклад в решение таких задач, как классификация, суммаризация и аннотирование документов и тематический поиск.
Одна из самых распространенных тематических моделей — латентное размещение Дирихле (Latent Dirichlet Allocation, LDA), поэтому в нашей работе мы в первую очередь рассматриваем именно её, сравниваем различные реализации этой модели в библиотеках scikit-learn и genism и исследуем, как изменяются результаты выдачи в зависимости от задаваемых вручную параметров.
В работе приведены результаты экспериментов на корпусе русскоязычных специальных текстов на лингвистическую тематику из лингвистического энциклопедического словаря (ЛЭС) под редакцией В. Н. Ярцевой и энциклопедии «Кругосвет» общим объёмом 1 333 546 словоформ. Перед работой с тематическими моделями была проведена обработка текстов, в т. ч. лемматизация и удаление стоп-слов.
Дальнейшее направление работы связано с рассмотрением алгоритма Explicit Semantic Analysis (ESA) в качестве тематической модели и сравнением его результатов с результатами LDA и других тематических моделей.
Любые тематические модели основаны на переходе из пространства термов в пространство найденных тем. Данный подход помогает разрешать лексическую неоднозначность, синонимию и полисемию слов, а также вносит вклад в решение таких задач, как классификация, суммаризация и аннотирование документов и тематический поиск.
Одна из самых распространенных тематических моделей — латентное размещение Дирихле (Latent Dirichlet Allocation, LDA), поэтому в нашей работе мы в первую очередь рассматриваем именно её, сравниваем различные реализации этой модели в библиотеках scikit-learn и genism и исследуем, как изменяются результаты выдачи в зависимости от задаваемых вручную параметров.
В работе приведены результаты экспериментов на корпусе русскоязычных специальных текстов на лингвистическую тематику из лингвистического энциклопедического словаря (ЛЭС) под редакцией В. Н. Ярцевой и энциклопедии «Кругосвет» общим объёмом 1 333 546 словоформ. Перед работой с тематическими моделями была проведена обработка текстов, в т. ч. лемматизация и удаление стоп-слов.
Дальнейшее направление работы связано с рассмотрением алгоритма Explicit Semantic Analysis (ESA) в качестве тематической модели и сравнением его результатов с результатами LDA и других тематических моделей.