46th International Philological Research Conference

Швартоваться нужно двумя якорями, а коллокации искать, как минимум, двумя формулами

Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2017-03-16
15:10 - 15:30

Ключевые слова, аннотация

Корпусная лингвистика, устойчивые сочетания, коллокации, меры ассоциации, оценка эффективности, эксперимент.

Тезисы

Цель статьи — улучшить методы выявления коллокаций. Может показаться, что частотные сочетания самые устойчивые. Конечно, не так. Важна сила синтагматической связи между коллокатами, зависящая от ряда факторов. Есть много формул (мер ассоциации). Но как выбрать лучшую? Разные меры отдают предпочтение разным типам коллокаций.
Мы провели эксперимент с 7 мерами на материале русского языка. Инструмент исследования — система NoSketch и корпусная система Aranea. Объем корпуса — 1 млрд токенов. Вычислялись коллокации для слова «вода». Сводная выдача ограничивалась 350 коллокациями. Часто качество автоматизированных методов оценивают на основе небольшого числа примеров, но, учитывая большое число и разнообразие коллокаций, этого недостаточно.

Решалось две задачи:
1. Придумать по значениям 7 мер ассоциации «интегрирующие» оценки, позволяющие выявить лучшие коллокации. Вот эти оценки:
  • количество мер ассоциации (=K), «вычисливших» данный коллокат;
  • средний ранг (сумма всех рангов, деленная на K) (=S);
  • нормированный ранг, повышающий или понижающий средний ранг с учетом К (=S*7/K).
Полученные ранги хорошо коррелировали с экспертной оценкой.
2. Выявить лучшую меру ассоциации. Был предложен ряд оценок. Суть их следующая.
Сводная оценка для каждой меры
(на основе ранжированного списка коллокатов) вычисляется с учетом количества и места коллокатов в списке (аналог — методика Харина-Ашманова из информационного поиска). Количество коллокатов в каждой мере суммируется отдельно по группам, а в каждой нижестоящей группе оно берется с понижающим коэффициентом. Общая сумма, таким образом, отражает, как много коллокатов найдено по данной мере и как высок ранг этих коллокатов. К нашему некоторому личному удивлению лучшими мерами оказалась log-likelihood, t-score и M3.