47th International Philological Research Conference

Структура глаголов для тезаурусного представления RussNet на базе морфологических дистрибуций контекстов

Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Александра Юрьевна Новикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

193
2018-03-23
14:20 - 14:40

Ключевые слова, аннотация

морфологическая аннотация; случайная выборка; морфосинтаксическая дистрибуция; векторная модель; кластерный анализ; глагольная сочетаемость

Тезисы

В докладе представлена модель распределения русских глаголов по смысловым группам на основании кластерного анализа сходства морфологических дистрибуций, построенных для случайных выборок контекстов из корпуса кафедры математической лингвистики СПбГУ. Осмысленность получаемых группировок глаголов была показана в предыдущих исследованиях, а также выявлено оптимальное окно анализа для вычисления дистрибуции и влияние набора тегов на детализацию семантических групп. Настоящее исследование было проведено на более представительном материале, охватывающем около тысячи пятисот средне- и высокочастотных глаголов. Предполагается, что морфологическая дистрибуция глагольных контекстов отражает их валентные и сочетаемостные свойства во взаимодействии с вариацией порядка слов в локальных синтаксических контекстах
Акцент на случайном характере выборок корпусных контекстов обусловлен предположением, что модели сочетаемости для разных значений глаголов-полисемантов будут представлены пропорционально их частотности в корпусе в случае их узуальности. Изучено влияние неоднозначной морфологической аннотации и размерности тегсета на результирующие структуры глаголов.