Анализ методов автоматического извлечения коллокаций
Диана Игоревна Онуфриенко
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-20
13:10 -
13:25
Ключевые слова, аннотация
Исследование посвящено анализу методов автоматического выделения коллокаций
на материале русского языка. Обсуждаются полученные в рамках экспериментов
значения статистических мер ассоциации, таких как коэффициенты взаимной
информации (MI), поточечной взаимной информации (PMI), Дайса,
логарифмического правдоподобия и t-score, и анализируются функциональные
особенности данных мер. Также рассматривается применение векторных моделей. В
докладе приводятся результаты практической части.
Тезисы
Целью нашего исследования является изучение на практике методов
автоматического извлечения коллокаций на русском языке. Работы по
выделению коллокаций имеют ключевое значение в ряде прикладных задач: машинном
переводе, автоматическом создании параллельных конкордансов, создании и
пополнении словарей, синтаксическом анализе текста, приписывании семантических
ролей, анализе тональности. В докладе обсуждаются традиционные подходы к
описанию понятия коллокации и отмечаются особенности дефиниций в рамках каждого
из них. В широком смысле коллокацией называют комбинацию двух и более слов,
имеющих тенденцию к совместной встречаемости. Реализация статистического
подхода основывается на использовании следующих коэффициентов: взаимной
информации (MI), поточечной взаимной
информации (PMI), Дайса, логарифмического правдоподобия и t-score.
В дополнение к коллокациям, которые были выделены данными мерами, в ходе
исследования были проанализированы биграммы, найденные на основе векторного
представления слов.