Выявление терминов-кандидатов для многоязычного терминологического словаря

Виктор Павлович Захаров

Докладчик

доцент
Санкт-Петербургский государственный университет

Светлана Сергеевна Пивоварова

Докладчик

студент 4 курса
Санкт-Петербургский государственный университет

193
2016-03-18

15:10 - 15:30

Ключевые слова, аннотация

Терминосистемы различных отраслей знаний меняются, существующие источники (словари, базы данных) не всегда своевременно отражают информацию о новых терминах. Ставится задача — разработать методику выделения кандидатов для многоязычного терминологического словаря на основе многоязычного корпуса текстов. Требуется выявить особенности построения терминов и терминосочетаний в разных языках; разработать алгоритм выделения терминов из корпуса; выявить переводные эквиваленты; проверить работу алгоритма на параллельном корпусе текстов и оценить его эффективность.

Тезисы

Задача — разработать методику автоматизированного выделения терминов-кандидатов для многоязычного терминологического словаря на основе многоязычного корпуса текстов. Для выделения терминов и их переводных эквивалентов используется алгоритм extract-then-align, предложенный в работах по извлечению двуязычной терминологии. Идея: термины выделяются отдельно в текстах языка оригинала и языка перевода, а затем «выравниваются». В задачах извлечения терминологии из текстов используются два основных метода: статистический и лингвистический. Выделение терминов статистическим методом основано на статистических мерах ассоциации и дистрибутивно-статистическом анализе. В основе лингвистических методов лежат определённые терминологические морфосинтаксические шаблоны, характерные для конкретного языка. Предполагается использовать смешанный метод извлечения терминологии, при котором для списка терминов, извлечённых с помощью лингвистического метода, применяется статистический фильтр (меры ассоциации). Для установления соответствий между переводными эквивалентами используется описанный в ряде работ метод опорного языка (pivot-based approach). В соответствии с ним каждый из языков в многоязычном (в нашем случае, англо-франко-русском) корпусе текстов используется для проверки соответствия между переводными эквивалентами в других языках. Для экспериментальной проверки работы алгоритма предполагается использовать параллельный корпус текстов, выровненный на уровне слов и предложений. Вспомогательным этапом является извлечение англо-франко-русского словаря с помощью статистического модуля Anymalign (https://anymalign.limsi.fr). На основе разработанных для каждого языка морфосинтаксических шаблонов выделяются термины, затем применяется статистический фильтр и устанавливаются соответствия между переводными эквивалентами на основе описанного выше метода опорных языков. Оценить эффективность данного алгоритма предполагается на основе сравнения полученных результатов (выделенных слов и словосочетаний — кандидатов в термины) с уже зафиксированными терминами в англо-франко-русских словарях и результатами работы других алгоритмов (например, модуля Bilingual terminology extraction в рамках корпусного менеджера SketchEngine).

XLV Международная филологическая научная конференция

Выявление терминов-кандидатов для многоязычного терминологического словаря

Ключевые слова, аннотация

Тезисы