Интеграция в тезаурус типа WordNet значений из открытых тональных словарей
Арина Андреевна Решетникова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-20
14:25 -
14:40
Ключевые слова, аннотация
В докладе описаны этапы построения тональной части тезауруса русского языка типа WordNet. Приводится краткая характеристика существующих словарей тональных значений. Описан процесс составления списка эмоционально окрашенных значений слов, структура полученного словаря и перечислены основные проблемы при его пополнении. Полученный в результате тезаурус тональных значений будет использован для автоматического тонального анализа русских новостных текстов.
Тезисы
Задача исследования — пополнение тезауруса типа WordNet для русского языка тональными значениями из существующих тональных лексиконов. На первом этапе мы проанализировали три открытых тональных словаря для английского языка: SentiWordNet, SentiStrength и NRC Word-Emotion Association Lexicon. Мы выделили список слов, общий для всех трёх словарей, и перевели его на русский язык. На втором этапе мы сравнили полученный список со словарём оценочной лексики русского языка LinisCrowd и выделили те элементы, которые встречаются в обоих списках. Конечный перечень слов является базой для наполнения тезауруса типа WordNet, который создаётся в рамках проекта интеграции RussNet — YARN. На этапе пополнения существующего тезауруса тональных значений необходимо построить из слов списка синонимические ряды, между которыми заданы семантические отношения, определённые в тезаурусах типа WordNet. Необходимо также учитывать, что тональные значения подразделяются на три группы: прагматические, эстетические и морально-нравственные. Полученный тональный словарь будет использован для автоматического тонального анализа русских новостных текстов.