XXII Открытая конференция студентов-филологов в СПбГУ

Снижение негативного влияния контекста на машинный перевод терминологии

Максим Дмитриевич Уразов
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

ауд. 120
2019-04-19
11:40 - 12:00

Ключевые слова, аннотация

Данное исследование посвящено влиянию контекста на машинный перевод терминологии с английского на русский язык и выполнено на материале статей и инструкций, содержащих терминологию терминополя «IT». В результате исследования выявлены основные ошибки в машинном переводе терминологии и сформулированы правила предварительного редактирования для снижения негативного влияния контекста на машинный перевод терминологии.

Тезисы

Переводы, полученные в результате применения систем машинного перевода в языковой паре «английский язык — русский язык», на сегодняшний день зачастую не могут считаться готовым продуктом и использоваться самостоятельно. В том числе некорректно переводится терминология, которая как правило содержит основной смысл текста.
Есть основания полагать, что предварительное редактирование текста обладает существенным потенциалом для снижения негативного влияния контекста на машинный перевод терминологии. Цель настоящей работы заключается в создании правил предварительного редактирования, позволяющих минимизировать негативное влияние контекста на машинный перевод терминологии.
Исследование проведено на материале статей и инструкций, содержащих терминологию терминополя «IT». Методом сплошной выборки были отобраны примеры некорректного машинного перевода терминологии, затем выполнено предварительное редактирование некорректно переведённых исходных текстов. После чего были осуществлен повторный машинный перевод, произведена сопоставительная оценка правильности переводов до и после редактирования.
Основными способами повышения качества машинного перевода в рамках предварительного редактирования являются лексическая нормализация, а именно максимальная экспликация всех значений, замена сокращённых форм слова полными и трансформация трудно переводимых терминов; а также упрощение формы текста, а именно сокращение предложений со сложными для перевода синтаксическими структурами и замена многокоренных слов простыми синонимами.
Всего было рассмотрено 800 текстов средним объёмом в 2200 символов, из которых было отобрано 150 примеров некорректного машинного перевода терминологии. В 121 случаях (78%) качество машинного перевода удалось улучшить, однако редактирование признано целесообразным только в 86 случаях (57%).
В результате были выявлены основные ошибки машинного перевода терминологии и сформулированы правила, позволяющие снизить негативное влияние контекста на машинный перевод терминологии примерно в 60% случаев: замена любого рода аббревиатур и сокращений терминологии полными формами слов, замена сложных слов в составе терминологии группами простых слов, экспликация лексического значения потенциально многозначной терминологии, экспликация синтаксических связей в терминологии. В будущем возможно использование результатов данного исследования для автоматизации предварительного редактирования текстов для машинного перевода.