Автоматическое выделение терминов и терминологических словосочетаний из специальных текстов
Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-14
16:50 -
17:10
Ключевые слова, аннотация
Доклад посвящен автоматическому выявлению терминов и терминологических сочетаний на основе комбинации статистических и лингвистических методов.
Тезисы
Статистический подход для выделения
терминологических сочетаний может быть реализован по-разному. Первый вариант
заключается в нахождении n-словных
сочетаний (n-грамм) на основе частотных
характеристик. Это могут быть значения относительных частот
для данных словосочетаний в корпусе или значения некоторых статистических мер,
согласно которым конструкция была найдена и выдана среди результатов.
Далее может быть использован порог отсечения по заданному значению.
Второй, лингвистический подход для
выделения терминологических сочетаний заключается в предварительном описании
моделей, по которым строятся терминологические словосочетания, для последующего нахождения
их в корпусе. Фактически этот подход является комбинированным, т.к. объединяет
и лингвистический, и статистический методы [Большакова и др. 2010]. Внутри множеств однотипных синтаксических
конструкций выполняется ранжирование в соответствии с той или иной
статистической мерой. Похожий подход описывается в работе [Pazienza et al. 2005] для английского языка.
Нами используется метод выявления устойчивых
сочетаний на основе грамматики лексико-синтаксических шаблонов для
описания терминологических сочетаний для русского языка.
Литература:
1. Большакова Е. И., Ефремова Н. Э., Носков А. А., Антонов В. Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). – М.: Изд-во РГГУ, 2010. С. 124–129.
2. Pazienza M., Pennacchiotti M., and Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Springer Verlag, Berlin, 2005. P. 255–279.
Литература:
1. Большакова Е. И., Ефремова Н. Э., Носков А. А., Антонов В. Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). – М.: Изд-во РГГУ, 2010. С. 124–129.
2. Pazienza M., Pennacchiotti M., and Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Springer Verlag, Berlin, 2005. P. 255–279.