XXII Открытая конференция студентов-филологов в СПбГУ

Автоматизированная оценка близости переводов художественных текстов (на материале текстов оригинала и переводов романа М. А. Булгакова «Мастер и Маргарита»)

Екатерина Вадимовна Третьяк
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

129
2019-04-16
13:10 - 13:25

Ключевые слова, аннотация

Целью данной работы является количественная оценка близости англоязычных переводов художественного текста на русском языке. Для экспериментов был выбран текст романа М. А. Булгакова «Мастер и Маргарита» и его переводы. В исследовании доказывается применимость дистрибутивно-семантических моделей к задаче оценки связи в парах выровненных предложений, представленных как вектора в n-мерном пространстве. Особенностью выбранного нами подхода является использование типологии трансформаций парафразов в лингвистическом анализе сходств и различий между сравниваемыми переводными предложениями.

Тезисы

В компьютерной лингвистике очень востребован класс задач, связанных с автоматической обработкой переводных текстов: создание корпусов параллельных и сопоставимых текстов, выравнивание таких корпусов, извлечение переводных эквивалентов, оценка близости переводов и оригинала. Эти задачи требуют иных подходов, нежели собственно машинный перевод.
Целью нашего исследования является оценка близости переводов художественного текста с русского на английский язык с использованием методов и моделей дистрибутивной семантики. В качестве материала для исследования выбран текст романа М. А. Булгакова «Мастер и Маргарита», а также его переводы на английский язык, выполненные переводчиками М. Гленни (1967 г.) и Р. Пивером и Л. Волохонской (1997 г.).
Метод оценки близости переводов, используемый в нашем исследовании, основывается на преобразовании выровненных пар переводных предложений в вектора дистрибутивной модели параллельного корпуса текстов. Процедура оценки близости переводов сводится к вычислению значения косинуса угла между векторами, соответствующими сравниваемым предложениям. В качестве инструмента исследования используется нейросетевая архитектура word2vec, разработанная Т. Миколовым и коллегами, и реализованная Р. Ржегуржеком в библиотеке gensim для языка программирования Python.
Основная гипотеза, выдвигаемая и проверяемая в ходе исследования, заключается в том, что процедуру сравнения переводов можно проводить с помощью линейных и векторных метрик, используемых при количественной оценке близости текстов, при этом сами переводные тексты можно рассматривать как парафразы, полученные в результате некоторых трансформаций.
Ожидаемые результаты исследования включают в себя: 1) выровненный корпус параллельных текстов оригинала и двух переводов романа Булгакова «Мастер и Маргарита», полученный с помощью инструмента LF Aligner; 2) количественная оценка близости пар переводов, полученная на основе дистрибутивно-семантической модели word2vec; 3) лингвистический анализ трансформаций в парах переводных предложений с точки зрения допустимых переводческих трансформаций и типологии парафразов, используемой, в частности, при работе с корпусами Paraphraser.ru и ParaPlag.