XLIII Международная филологическая научная конференция

Тематическое моделирование художественного текста на основе алгоритма LDA

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2014-03-14
15:10 - 15:30

Ключевые слова, аннотация

В докладе обсуждаются результаты экспериментов по автоматическому анализу художественных текстов на основе тематической модели LDA (Latent Dirichlet Allocation). Эксперименты проводились с англоязычными художественными текстами (Дж. Голсуорси, Дж. Джойс, У. Моэм, Э. По, У. Теккерей и др.), в качестве инструмента использовался пакет TMT (http://code.google.com/p/topic-modeling-tool).


Тезисы

Процедуры тематического моделирования, позволяющие выявить содержательную структуру текста, становятся привычным этапом автоматического анализа корпусов текстов. Как правило, материал для тематического моделирования – это специальные тексты (посты в социальных сетях, новостные сообщения, научные тексты и т.д.). Мы предприняли попытку провести данную процедуру для художественных текстов с тем, чтобы понять, как особенности повествования, развития сюжетной линии и другие черты, характерные для данного стиля, отражаются при тематическом моделировании. В докладе обсуждаются результаты экспериментов по автоматическому анализу художественных текстов на основе тематической модели LDA (Latent Dirichlet Allocation). Эксперименты проводились с англоязычными художественными текстами (Дж. Голсуорси, Дж. Джойс, У. Моэм, Э. По, У. Теккерей и др.), в качестве инструмента использовался пакет TMT (http://code.google.com/p/topic-modeling-tool). Результаты подтверждают возможность установления связей между автоматически сгенерированными темами и сюжетными линиями произведения, а также с лексико-семантическими группировками, выделяемыми в рамках определенного текста.