Автоматизированная оценка близости переводов художественных текстов (на материале текстов оригинала и переводов романа М. А. Булгакова «Мастер и Маргарита»)
Екатерина Вадимовна Третьяк
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2019-04-16
13:10 -
13:25
Ключевые слова, аннотация
Целью данной работы
является количественная оценка близости англоязычных переводов художественного
текста на русском языке. Для экспериментов был выбран текст романа М. А.
Булгакова «Мастер и Маргарита» и его переводы. В исследовании доказывается
применимость дистрибутивно-семантических моделей к задаче оценки связи в парах
выровненных предложений, представленных как вектора в n-мерном пространстве.
Особенностью выбранного нами подхода является использование типологии
трансформаций парафразов в лингвистическом анализе сходств и различий
между сравниваемыми переводными предложениями.
Тезисы
В компьютерной лингвистике очень востребован
класс задач, связанных с автоматической обработкой переводных текстов: создание
корпусов параллельных и сопоставимых текстов, выравнивание таких корпусов,
извлечение переводных эквивалентов, оценка близости переводов и оригинала. Эти
задачи требуют иных подходов, нежели собственно машинный перевод.
Целью нашего исследования является оценка близости переводов художественного текста с русского на английский язык с использованием методов и моделей дистрибутивной семантики. В качестве материала для исследования выбран текст романа М. А. Булгакова «Мастер и Маргарита», а также его переводы на английский язык, выполненные переводчиками М. Гленни (1967 г.) и Р. Пивером и Л. Волохонской (1997 г.).
Метод оценки близости переводов, используемый в нашем исследовании, основывается на преобразовании выровненных пар переводных предложений в вектора дистрибутивной модели параллельного корпуса текстов. Процедура оценки близости переводов сводится к вычислению значения косинуса угла между векторами, соответствующими сравниваемым предложениям. В качестве инструмента исследования используется нейросетевая архитектура word2vec, разработанная Т. Миколовым и коллегами, и реализованная Р. Ржегуржеком в библиотеке gensim для языка программирования Python.
Основная гипотеза, выдвигаемая и проверяемая в ходе исследования, заключается в том, что процедуру сравнения переводов можно проводить с помощью линейных и векторных метрик, используемых при количественной оценке близости текстов, при этом сами переводные тексты можно рассматривать как парафразы, полученные в результате некоторых трансформаций.
Ожидаемые результаты исследования включают в себя: 1) выровненный корпус параллельных текстов оригинала и двух переводов романа Булгакова «Мастер и Маргарита», полученный с помощью инструмента LF Aligner; 2) количественная оценка близости пар переводов, полученная на основе дистрибутивно-семантической модели word2vec; 3) лингвистический анализ трансформаций в парах переводных предложений с точки зрения допустимых переводческих трансформаций и типологии парафразов, используемой, в частности, при работе с корпусами Paraphraser.ru и ParaPlag.
Целью нашего исследования является оценка близости переводов художественного текста с русского на английский язык с использованием методов и моделей дистрибутивной семантики. В качестве материала для исследования выбран текст романа М. А. Булгакова «Мастер и Маргарита», а также его переводы на английский язык, выполненные переводчиками М. Гленни (1967 г.) и Р. Пивером и Л. Волохонской (1997 г.).
Метод оценки близости переводов, используемый в нашем исследовании, основывается на преобразовании выровненных пар переводных предложений в вектора дистрибутивной модели параллельного корпуса текстов. Процедура оценки близости переводов сводится к вычислению значения косинуса угла между векторами, соответствующими сравниваемым предложениям. В качестве инструмента исследования используется нейросетевая архитектура word2vec, разработанная Т. Миколовым и коллегами, и реализованная Р. Ржегуржеком в библиотеке gensim для языка программирования Python.
Основная гипотеза, выдвигаемая и проверяемая в ходе исследования, заключается в том, что процедуру сравнения переводов можно проводить с помощью линейных и векторных метрик, используемых при количественной оценке близости текстов, при этом сами переводные тексты можно рассматривать как парафразы, полученные в результате некоторых трансформаций.
Ожидаемые результаты исследования включают в себя: 1) выровненный корпус параллельных текстов оригинала и двух переводов романа Булгакова «Мастер и Маргарита», полученный с помощью инструмента LF Aligner; 2) количественная оценка близости пар переводов, полученная на основе дистрибутивно-семантической модели word2vec; 3) лингвистический анализ трансформаций в парах переводных предложений с точки зрения допустимых переводческих трансформаций и типологии парафразов, используемой, в частности, при работе с корпусами Paraphraser.ru и ParaPlag.