Дистрибутивно-семантические модели для русского языка в ДСМ-калькуляторе
Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Екатерина Владимировна Еникеева
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2019-03-21
16:25 -
16:45
Ключевые слова, аннотация
Семантический калькулятор, дистрибутивно-семантические модели, векторные представления.
Тезисы
В современной компьютерной лингвистике
особенно востребованы семантические ресурсы, основанные на векторных
представлениях корпусов текстов. Наиболее известен ресурс RusVectores
(https://rusvectores.org/ru/), содержащий линейку дистрибутивно-семантических
моделей (ДСМ) семейства word2vec, построенных на различных корпусах русского
языка. Семантический калькулятор RusVectores позволяет автоматически выделять
слова со сходным контекстным поведением, вычислять семантические пропорции,
определять семантическую близость в парах слов.
В нашем проекте
реализован собственный ДСМ-калькулятор, в состав которго включены авторские
ДСМ, используемые для определения допустимости синтагматических связей в
текстах. ДСМ построены на материале репрезентативного корпуса художественных
текстов и отличаются внутренними параметрами. Основное предназначение наших
моделей — автоматическое извлечение и предсказание разнообразных
синтагматических отношений для целевых слов, проявляющихся на уровне лексических
конструкций различных типов. Данные модели были подвергнуты формализованной
оценке относительно экспертных данных. Ранее оценка векторных представлений
слов на материале русского языка производилась исключительно на основе
парадигматических связей. Проведенная нами работа восполняет этот пробел.