44th International Philological Research Conference

Оценка параметров статистических мер для выделения несвободных словосочетаний

Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2015-03-13
15:40 - 16:00

Ключевые слова, аннотация

В докладе дается сравнительная оценка статистических мер для выделения несвободных словосочетаний (коллокаций). Представлены результаты исследования по выделению терминологических словосочетаний на основе различных статистических мер: t-score, MI, MI3, min. sensitivity, log-likelihood, logDice, и MI.log_f.


Тезисы

Огромное место в лингвистике, в терминоведении, занимают специализированные подъязыки. Большая часть терминов — лексических единиц терминосистемы и тезауруса предметной области — представляет собой словосочетания. Поэтому встает задача выработки автоматических (полуавтоматических) методов выявления таких сочетаний по корпусам текстов. Наше исследование выполнено с помощью специализированной комплексной корпусной системы Sketch Engine (http://www.sketchengine.co.uk). В данном исследовании мы используем механизм вычисления и выдачи коллокаций – сочетаний заданного слова с другими с количественным указанием силы связи, которая рассчитывается на основе мер ассоциации.
В качестве статистического аппарата нами были протестированы следующие меры:  t-score (t-test), MI, MI3, MI-log-prod (MI.log_f), minimum sensitivity, log-likelihood ratio, Dice (logDice), MI.log_f. MI3 и MI-log-prod являются модификациями популярной меры MI, придающие дополнительный вес частоте совместной встречаемости элементов коллокации. Мера minimum sensitivity (минимальная чувствительность) представляет собой минимум из двух отношений (отношение совместной частоты к частотам ключевого слова и коллоката). Все меры в своих формулах учитывают частоту составных элементов коллокации и частоту совместной встречаемости (по-разному). При этом меры minimum sensitivity, log-likelihood ratio, Dice не учитывают объем корпуса.
В ходе экспериментов нами было проанализировано более 500 сочетаний в интервалах [-2;0] и [0;+2] от заданного ключевого слова (в качестве ключевых слов были рассмотрены 20 наиболее частотных терминов) с использованием всех вышеуказанных мер ассоциации. Найденные словосочетания были сгруппированы по разным грамматическим моделям, была произведена оценка статистических мер.