Оценка параметров статистических мер для выделения несвободных словосочетаний

Мария Владимировна Хохлова

Докладчик

доцент
Санкт-Петербургский государственный университет

193
2015-03-13

15:40 - 16:00

Ключевые слова, аннотация

В докладе дается сравнительная оценка статистических мер для выделения несвободных словосочетаний (коллокаций). Представлены результаты исследования по выделению терминологических словосочетаний на основе различных статистических мер: t-score, MI, MI3, min. sensitivity, log-likelihood, logDice, и MI.log_f.

Тезисы

Огромное место в лингвистике, в терминоведении, занимают специализированные подъязыки. Большая часть терминов — лексических единиц терминосистемы и тезауруса предметной области — представляет собой словосочетания. Поэтому встает задача выработки автоматических (полуавтоматических) методов выявления таких сочетаний по корпусам текстов. Наше исследование выполнено с помощью специализированной комплексной корпусной системы Sketch Engine (http://www.sketchengine.co.uk). В данном исследовании мы используем механизм вычисления и выдачи коллокаций – сочетаний заданного слова с другими с количественным указанием силы связи, которая рассчитывается на основе мер ассоциации.
В качестве статистического аппарата нами были протестированы следующие меры: t-score (t-test), MI, MI3, MI-log-prod (MI.log_f), minimum sensitivity, log-likelihood ratio, Dice (logDice), MI.log_f. MI3 и MI-log-prod являются модификациями популярной меры MI, придающие дополнительный вес частоте совместной встречаемости элементов коллокации. Мера minimum sensitivity (минимальная чувствительность) представляет собой минимум из двух отношений (отношение совместной частоты к частотам ключевого слова и коллоката). Все меры в своих формулах учитывают частоту составных элементов коллокации и частоту совместной встречаемости (по-разному). При этом меры minimum sensitivity, log-likelihood ratio, Dice не учитывают объем корпуса.
В ходе экспериментов нами было проанализировано более 500 сочетаний в интервалах [-2;0] и [0;+2] от заданного ключевого слова (в качестве ключевых слов были рассмотрены 20 наиболее частотных терминов) с использованием всех вышеуказанных мер ассоциации. Найденные словосочетания были сгруппированы по разным грамматическим моделям, была произведена оценка статистических мер.

XLIV Международная филологическая научная конференция

Оценка параметров статистических мер для выделения несвободных словосочетаний

Ключевые слова, аннотация

Тезисы