Сравнение методов извлечения двуязычных терминов и терминологических словосочетаний на основе параллельного англо-русского корпуса текстов по языкам программирования
Светлана Сергеевна Пивоварова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2015-04-08
15:30 -
15:50
Ключевые слова, аннотация
В
настоящее время параллельные корпусы текстов широко используются для выделения
терминов и терминологических словосочетаний. В корпусной лингвистике были
выработаны различные методы для автоматического извлечения однословных и
многословных терминов. В ходе данного исследования предполагается изучить и
сравнить эффективность статистического и лингвистического методов выделения
терминов на материале параллельного англо-русского корпуса текстов по языкам
программирования.
Тезисы
Параллельные
корпусы текстов широко используются в корпусной лингвистике для выделения
терминов и терминологических словосочетаний. Современные исследования
показывают, что извлечённые из параллельных корпусов двуязычные термины
(однословные и многословные) можно применять в качестве основы для машинного
перевода, создания терминологических словарей и тезаурусов предметной области,
а также для верификации уже зафиксированных значений терминов и оценки
адекватности их перевода.
Цель данного исследования заключается
в том, чтобы на основе параллельного англо-русского корпуса текстов по языкам
программирования изучить и сравнить различные методы выделения терминов и
терминологических сочетаний.
В
наиболее общем смысле, термин – это
слово или словосочетание, соотносимое с определённым понятием в той или иной
отрасли знаний. В соответствии с задачами параллельных корпусных исследований
общеязыковое понятие термина переосмысливается и выделяются следующие его
признаки: 1) практически полное отсутствие омонимии с другими словами; 2)
высокая относительная частота в специальном корпусе в сравнении с общеязыковым
корпусом текстов; 3) наличие адекватного переводного эквивалента в параллельных
текстах.
В
корпусной лингвистике были разработаны различные методы извлечения терминов и
терминологических сочетаний. Среди методов выделения однословных терминов
различают методы ключевых слов и использование моделей дистрибутивной
семантики. Основные подходы к извлечению терминологических словосочетаний
включают в себя статистические (меры
ассоциации), лингвистические
(морфо-синтаксические шаблоны) и смешанные
(сочетание статистических и лингвистического методов).
В ходе экспериментальной
части данной работы предполагается определить эффективность статистического и
лингвистического метода извлечения терминов. Для этой цели был создан тестовый
корпус параллельных текстов объёмом около 100 000 слов для каждого языка
(русского и английского). Изучение статистического метода заключается в
применении методов ключевых слов для однословных терминов и мер ассоциации для
терминологических сочетаний. Для оценки лингвистического метода используются
морфо-синтаксические шаблоны. Предполагается, что более полное использование
информации о морфологических особенностях терминоупотреблений повышает качество
извлечения терминов из параллельных корпусов текстов.