Выявление терминов-кандидатов для многоязычного терминологического словаря
Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Светлана Сергеевна Пивоварова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-03-18
15:10 -
15:30
Ключевые слова, аннотация
Терминосистемы различных отраслей
знаний меняются, существующие источники (словари, базы данных) не всегда
своевременно отражают информацию о новых терминах. Ставится задача — разработать
методику выделения кандидатов для многоязычного терминологического словаря на
основе многоязычного корпуса текстов. Требуется выявить особенности построения
терминов и терминосочетаний в разных языках; разработать алгоритм выделения
терминов из корпуса; выявить переводные эквиваленты; проверить работу алгоритма
на параллельном корпусе текстов и оценить его эффективность.
Тезисы
Задача — разработать методику автоматизированного
выделения терминов-кандидатов для многоязычного терминологического словаря на
основе многоязычного корпуса текстов. Для выделения терминов и их переводных эквивалентов
используется алгоритм extract-then-align, предложенный в работах по извлечению
двуязычной терминологии. Идея: термины выделяются отдельно в текстах языка
оригинала и языка перевода, а затем «выравниваются».
В задачах извлечения терминологии
из текстов используются два основных метода: статистический и лингвистический.
Выделение терминов статистическим методом основано на статистических мерах
ассоциации и дистрибутивно-статистическом анализе. В основе лингвистических
методов лежат определённые терминологические морфосинтаксические шаблоны,
характерные для конкретного языка. Предполагается использовать смешанный метод
извлечения терминологии, при котором для списка терминов, извлечённых с помощью
лингвистического метода, применяется статистический фильтр (меры ассоциации).
Для установления соответствий
между переводными эквивалентами используется описанный в ряде работ метод
опорного языка (pivot-based approach). В соответствии с ним каждый из языков в
многоязычном (в нашем случае, англо-франко-русском) корпусе текстов используется для проверки соответствия между
переводными эквивалентами в других языках.
Для экспериментальной проверки
работы алгоритма предполагается использовать параллельный корпус текстов,
выровненный на уровне слов и предложений. Вспомогательным этапом является
извлечение англо-франко-русского словаря с помощью статистического модуля Anymalign
(https://anymalign.limsi.fr). На основе разработанных для каждого языка
морфосинтаксических шаблонов выделяются термины, затем применяется
статистический фильтр и устанавливаются соответствия между переводными
эквивалентами на основе описанного выше метода опорных языков. Оценить
эффективность данного алгоритма предполагается на основе сравнения полученных
результатов (выделенных слов и словосочетаний — кандидатов в термины) с уже
зафиксированными терминами в англо-франко-русских словарях и результатами
работы других алгоритмов (например, модуля Bilingual terminology extraction в
рамках корпусного менеджера SketchEngine).