Сходство между статистическими мерами на примере анализа атрибутивных словосочетаний
Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2019-03-22
16:25 -
16:45
Ключевые слова, аннотация
Коллокации, статистические меры, сходство, атрибутивные словосочетания, корпус текстов.
Тезисы
Статистические
методы активно используются при автоматическом выявлении словосочетаний на
протяжении долгого времени. Наше исследование направлено на сравнение
двенадцати мер ассоциации между собой на материале Интернет-корпуса. Целью
экспериментов было исследование сходства и различий между мерами, а также
нахождение среди них наиболее эффективной применительно к извлечению
атрибутивных коллокаций для русского языка. Для решения поставленных задач был вычислен
коэффициент корреляции Спирмена, а также проведена оценка извлеченных
словосочетаний относительно словаря. Полученные результаты показали, например,
что коэффициенты Дайса и Жаккарда, а также тесты Фишера и Пуассона, обнаруживают
определенное сходство. Таким образом, можно выделить группы мер, которые одинаково
ранжируют словосочетания и, следовательно, могут быть взаимозаменяемы.
Исследование
выполнено при поддержке гранта Президента Российской Федерации для
государственной поддержки молодых российских ученых № МК-2513.2018.6 «Исследование
методов автоматического извлечения лексических конструкций на основе машинного
обучения».