XLVI Международная филологическая научная конференция

Процедура пополнения данных компьютерного тезауруса RussNet для интеграции с краудсорсинговым лексикографическим ресурсом YARN

Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2017-03-16
14:20 - 14:40

Ключевые слова, аннотация

Компьютерная лингвистика, компьютерная лексикография, компьютерный тезаурус, семантические отношения, семантические области.

Тезисы

На кафедре математической лингвистики СПбГУ разрабатывается компьютерный тезаурус RussNet. Общие идеи структуры ресурса были унаследованы от проекта WordNet [Miller]. Впоследствии они были скорректированы применительно к лексической структуре русского языка, была разработана методика отбора и обработки данных [Азарова]. Основной проблемой ресурса является его неполнота как в плане обработанных семантических областей, так и в плане полноты описания периферии лексико-семантической области. В настоящее время появилась возможность исправить эти пробелы — в соответствии с грантом РГНФ №16-04-12019 данные RussNet будут интегрированы с краудсорсинговым лексикографическим ресурсом YARN [Braslavski et al]. Для пополнения данных будут выполнены следующие задачи: сформированы синсеты ядра (базовых понятий) для имеющихся данных; пополнены синсеты имеющимися синонимами из Викисловаря, включая информацию о семантически связанных лексемах (гипонимах, гиперонимах, антонимах); скорректированы словарные определения синсетов путем приведения к родовидовой форме; область будет дополнена синсетами других частей речи, которые выражают понятия описываемой семантической области; найдены соотносимые синсеты в английской версии компьютерного тезауруса WordNet 2.1.
Библиография
Азарова И. В. RussNet как база представления лексического блока в системах автоматизированного анализа текстов. СПб.: СПбГУ. Филологический факультет, 2015. 76 с.
Braslavski, P., Ustalov, D., Mukhin, M. A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus [Текст] / P. Braslavski, D. Ustalov, M. Mukhin // Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden, 2014. P. 101–104.