Тематическое моделирование художественного текста на основе алгоритма LDA
Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-14
15:10 -
15:30
Ключевые слова, аннотация
В докладе обсуждаются результаты экспериментов по
автоматическому анализу художественных текстов на основе тематической модели LDA (Latent
Dirichlet Allocation).
Эксперименты проводились с англоязычными художественными
текстами (Дж. Голсуорси, Дж. Джойс, У. Моэм, Э. По, У. Теккерей и др.), в качестве
инструмента использовался пакет TMT (http://code.google.com/p/topic-modeling-tool).
Тезисы
Процедуры тематического моделирования, позволяющие
выявить содержательную структуру текста, становятся привычным этапом
автоматического анализа корпусов текстов. Как правило, материал для
тематического моделирования – это специальные тексты (посты в социальных
сетях, новостные сообщения, научные тексты и т.д.). Мы предприняли попытку
провести данную процедуру для художественных текстов с тем, чтобы понять, как
особенности повествования, развития сюжетной линии и другие черты, характерные
для данного стиля, отражаются при тематическом моделировании. В докладе
обсуждаются результаты экспериментов по автоматическому анализу художественных
текстов на основе тематической модели LDA (Latent Dirichlet Allocation). Эксперименты проводились с англоязычными художественными текстами
(Дж. Голсуорси, Дж. Джойс, У. Моэм, Э. По, У. Теккерей и др.), в качестве
инструмента использовался пакет TMT (http://code.google.com/p/topic-modeling-tool). Результаты подтверждают возможность установления связей
между автоматически сгенерированными темами и сюжетными линиями произведения, а
также с лексико-семантическими группировками, выделяемыми в рамках
определенного текста.