XVIII Международная конференция студентов-филологов

Сравнение методов извлечения двуязычных терминов и терминологических словосочетаний на основе параллельного англо-русского корпуса текстов по языкам программирования

Светлана Сергеевна Пивоварова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

129
2015-04-08
15:30 - 15:50

Ключевые слова, аннотация

В настоящее время параллельные корпусы текстов широко используются для выделения терминов и терминологических словосочетаний. В корпусной лингвистике были выработаны различные методы для автоматического извлечения однословных и многословных терминов. В ходе данного исследования предполагается изучить и сравнить эффективность статистического и лингвистического методов выделения терминов на материале параллельного англо-русского корпуса текстов по языкам программирования.

Тезисы

Параллельные корпусы текстов широко используются в корпусной лингвистике для выделения терминов и терминологических словосочетаний. Современные исследования показывают, что извлечённые из параллельных корпусов двуязычные термины (однословные и многословные) можно применять в качестве основы для машинного перевода, создания терминологических словарей и тезаурусов предметной области, а также для верификации уже зафиксированных значений терминов и оценки адекватности их перевода. Цель данного исследования заключается в том, чтобы на основе параллельного англо-русского корпуса текстов по языкам программирования изучить и сравнить различные методы выделения терминов и терминологических сочетаний. В наиболее общем смысле, термин – это слово или словосочетание, соотносимое с определённым понятием в той или иной отрасли знаний. В соответствии с задачами параллельных корпусных исследований общеязыковое понятие термина переосмысливается и выделяются следующие его признаки: 1) практически полное отсутствие омонимии с другими словами; 2) высокая относительная частота в специальном корпусе в сравнении с общеязыковым корпусом текстов; 3) наличие адекватного переводного эквивалента в параллельных текстах. В корпусной лингвистике были разработаны различные методы извлечения терминов и терминологических сочетаний. Среди методов выделения однословных терминов различают методы ключевых слов и использование моделей дистрибутивной семантики. Основные подходы к извлечению терминологических словосочетаний включают в себя статистические (меры ассоциации), лингвистические (морфо-синтаксические шаблоны) и смешанные (сочетание статистических и лингвистического методов). В ходе экспериментальной части данной работы предполагается определить эффективность статистического и лингвистического метода извлечения терминов. Для этой цели был создан тестовый корпус параллельных текстов объёмом около 100 000 слов для каждого языка (русского и английского). Изучение статистического метода заключается в применении методов ключевых слов для однословных терминов и мер ассоциации для терминологических сочетаний. Для оценки лингвистического метода используются морфо-синтаксические шаблоны. Предполагается, что более полное использование информации о морфологических особенностях терминоупотреблений повышает качество извлечения терминов из параллельных корпусов текстов.