XLVI Международная филологическая научная конференция

Тематическое моделирование в работе с параллельными и сопоставимыми текстами (на материале оригиналов и переводов прозы В. В. Набокова)

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2017-03-15
16:40 - 17:00

Ключевые слова, аннотация

Математическая лингвистика, корпусная лингвистика, вероятностные модели текстов, параллельные тексты, В. В. Набоков.

Тезисы

Построение вероятностных тематических моделей корпусов текстов имеет широкий спектр применения: это прежде всего общие задачи оптимизации информационного поиска, определения содержательной направленности сообщений в новостных потоках и в социальных сетях, и кроме того, более специфические задачи, среди которых анализ межъязыковых соответствий в одноязычных и многоязычных (параллельных и сопоставимых) корпусах текстов. В данном докладе обсуждаются результаты работы с алгоритмом вероятностного тематического моделирования LDA (Latent Dirichlet Allocation) при исследовании текстов оригиналов и переводов художественных текстов. В качестве экспериментального материала были выбраны прозаические произведения В. В. Набокова. Осуществлены тесты по автоматическому выделению тем (классов слов с близкими дистрибутивными свойствами), проведен сопоставительный анализ наполнения тем а) в текстах автобиографического романа на английском языке «Speak, Memory» и его авторского пересказа на русском «Другие берега», б) в текстах англоязычного оригинала романа «Пнин» и трех его переводов на русский язык, выполненных Г. Барабтарло, Б. Носиком и С. Ильиным. Полученные результаты сравниваются с данными аналогичных экспериментов, проведенных ранее на другом корпусном материале.