XXI Открытая конференция студентов-филологов в СПбГУ

Анализ методов автоматического извлечения коллокаций

Диана Игоревна Онуфриенко
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

ауд. 193
2018-04-20
13:10 - 13:25

Ключевые слова, аннотация

Исследование посвящено анализу методов автоматического выделения коллокаций на материале русского языка. Обсуждаются полученные в рамках экспериментов значения статистических мер ассоциации, таких как коэффициенты взаимной информации (MI), поточечной взаимной информации (PMI), Дайса, логарифмического правдоподобия и t-score, и анализируются функциональные особенности данных мер. Также рассматривается применение векторных моделей. В докладе приводятся результаты практической части.

Тезисы

Целью нашего исследования является изучение на практике методов автоматического извлечения коллокаций на русском языке. Работы по выделению коллокаций имеют ключевое значение в ряде прикладных задач: машинном переводе, автоматическом создании параллельных конкордансов, создании и пополнении словарей, синтаксическом анализе текста, приписывании семантических ролей, анализе тональности. В докладе обсуждаются традиционные подходы к описанию понятия коллокации и отмечаются особенности дефиниций в рамках каждого из них. В широком смысле коллокацией называют комбинацию двух и более слов, имеющих тенденцию к совместной встречаемости. Реализация статистического подхода основывается на использовании следующих коэффициентов: взаимной информации (MI), поточечной взаимной информации (PMI), Дайса, логарифмического правдоподобия и t-score. В дополнение к коллокациям, которые были выделены данными мерами, в ходе исследования были проанализированы биграммы, найденные на основе векторного представления слов.