Оценка параметров статистических мер для выделения несвободных словосочетаний
Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2015-03-13
15:40 -
16:00
Ключевые слова, аннотация
В докладе дается сравнительная оценка статистических мер для выделения несвободных словосочетаний (коллокаций). Представлены результаты исследования по выделению
терминологических словосочетаний на основе различных статистических мер: t-score, MI, MI3,
min. sensitivity, log-likelihood, logDice, и MI.log_f.
Тезисы
Огромное место в лингвистике, в терминоведении,
занимают специализированные подъязыки. Большая часть терминов — лексических единиц терминосистемы
и тезауруса предметной области — представляет собой словосочетания. Поэтому
встает задача выработки автоматических (полуавтоматических) методов выявления
таких сочетаний по корпусам текстов. Наше исследование выполнено с помощью специализированной
комплексной корпусной системы Sketch Engine (http://www.sketchengine.co.uk).
В данном исследовании мы используем механизм
вычисления и выдачи коллокаций – сочетаний заданного слова с другими с
количественным указанием силы связи, которая рассчитывается на основе мер
ассоциации.
В качестве статистического аппарата нами были протестированы следующие меры: t-score (t-test), MI, MI3, MI-log-prod (MI.log_f), minimum sensitivity, log-likelihood ratio, Dice (logDice), MI.log_f. MI3 и MI-log-prod являются модификациями популярной меры MI, придающие дополнительный вес частоте совместной встречаемости элементов коллокации. Мера minimum sensitivity (минимальная чувствительность) представляет собой минимум из двух отношений (отношение совместной частоты к частотам ключевого слова и коллоката). Все меры в своих формулах учитывают частоту составных элементов коллокации и частоту совместной встречаемости (по-разному). При этом меры minimum sensitivity, log-likelihood ratio, Dice не учитывают объем корпуса.
В ходе экспериментов нами было проанализировано более 500 сочетаний в интервалах [-2;0] и [0;+2] от заданного ключевого слова (в качестве ключевых слов были рассмотрены 20 наиболее частотных терминов) с использованием всех вышеуказанных мер ассоциации. Найденные словосочетания были сгруппированы по разным грамматическим моделям, была произведена оценка статистических мер.
В качестве статистического аппарата нами были протестированы следующие меры: t-score (t-test), MI, MI3, MI-log-prod (MI.log_f), minimum sensitivity, log-likelihood ratio, Dice (logDice), MI.log_f. MI3 и MI-log-prod являются модификациями популярной меры MI, придающие дополнительный вес частоте совместной встречаемости элементов коллокации. Мера minimum sensitivity (минимальная чувствительность) представляет собой минимум из двух отношений (отношение совместной частоты к частотам ключевого слова и коллоката). Все меры в своих формулах учитывают частоту составных элементов коллокации и частоту совместной встречаемости (по-разному). При этом меры minimum sensitivity, log-likelihood ratio, Dice не учитывают объем корпуса.
В ходе экспериментов нами было проанализировано более 500 сочетаний в интервалах [-2;0] и [0;+2] от заданного ключевого слова (в качестве ключевых слов были рассмотрены 20 наиболее частотных терминов) с использованием всех вышеуказанных мер ассоциации. Найденные словосочетания были сгруппированы по разным грамматическим моделям, была произведена оценка статистических мер.