44th International Philological Research Conference

Адаптация компьютерного инструмента GenSim для семантического анализа русскоязычных корпусов текстов

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2015-03-13
15:20 - 15:40

Ключевые слова, аннотация

В докладе рассматривается решение задачи исследования тематики специальных текстов на русском языке с помощью открытого компьютерного инструмента GenSim (http://radimrehurek.com/gensim/), который позволяет строить векторные и статистические модели текстовых корпусов. Особое внимание уделяется лингвистической обработке текстов (лемматизация, разрешение морфологической неоднозначности, построение списка стоп-слов) и выбору алгоритма анализа (латентно-семантический анализ, латентное размещение Дирихле и некоторые другие).

Тезисы

Среди математических моделей, используемых для решения задач, связанных с извлечением информации из текстов и со смысловой ком­прес­сией, особое место занимают тематические модели, позволяющие произво­дить нечеткую кластеризацию лексики в корпусах текстов, автоматически выделять ключевые слова и словосочетания, классы слов с близкими дистрибутивными свойствами и т.п. Существу­ет два основных класса тематических моделей – алгебраические (стандартная векторная модель VSM, латентно-семанти­ческий анализ LSA) и вероятностные (вероятностный латентно-семантический анализ pLSA, латентное размещение Дирихле LDA). В докладе рассматривается решение задачи исследования тематики специальных текстов на русском языке с помощью открытого компьютерного инструмента GenSim (http://radimrehurek.com/gensim/, разработчик Р. Ржегуржек), который реализован на языке Питон и позволяет строить векторные и статистические модели текстовых корпусов. В составе GenSim есть модуль векторизации: внедрен алгоритм word2vec, производятся операции построения матриц совместной встречаемости, вычисления коэффициента tf-idf, меры близости контекстных векторов и т.п. GenSim оснащен статистическим модулем, позволяющим строить вероятностные тематические модели корпусов текстов, наиболее продуктивной из которых является модель LDA. Большим преимуществом GenSim является легкость его настройки для обработки русскоязычных текстов. Эти особенности рассматриваемого компьютерного инструмента делают его более привлекательным по сравнению с другими аналогичными ресурсами. В настоящее время проводятся эксперименты по моделированию тематики русскоязычных корпусов специальных текстов, разрабатываемых на кафедре математической лингвистики. Среди них корпуса текстов по гомеопатии, радиоэлектронике и другим предметным областям, корпус научно-популярных статей, публицистики, а также разнообразные художественные тексты. Особое внимание в исследовании уделяется лингвистической обработке текстов (лемматизация, разрешение морфологической неоднозначности, построение списка стоп-слов), выбору алгоритма анализа (LSA, LDA и некоторые другие), параметрам тематического моделирования и содержательной интерпретации результатов (характеристика состава тем, выявление парадигматических и синтагматических связей слов внутри тем, описание структуры тем с помощью ситуативных фреймов).