Проблема разработки системы оценки тональности сообщений на украинском языке на примере системы SentiStrength
Анна Станиславовна Васильева
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-20
15:35 -
15:50
Ключевые слова, аннотация
В докладе рассматривается проблема настройки системы SentiStrength
для анализа тональности сообщений на украинском языке. Словарь эмоциональных
слов украинского языка создавался с помощью экспертов и автоматически — на
основе методов машинного обучения. Работа
проводилась на материале коротких сообщений из социальной сети Twitter.
Тезисы
Программа SentiStrength,
созданная как часть проекта CyberEmotions, автоматически производит анализ
тональности коротких текстов. Она основана на использовании словаря
эмоциональной лексики и корректирующих правил. Система была изначально создана для
английского языка. Так как подобные системы отсутствуют для украинского языка,
мы предприняли попытку настроить SentiStrength на украинский язык путём
изменения файлов исходных данных. Исходные файлы на русском языке были
переведены на украинский. Перевод производился автоматически, затем проверялся
двумя экспертами и по возможности пополнялся синонимами. Был создан словарь из
877 единиц, в котором представлены как полные слова, так и их основы. Словарь
был дополнен данными, извлеченными с помощью машинного обучения из обучающей
выборки объемом 1000 сообщений. Данные на разных этапах работы оценивались
автоматически на основе тестовой выборки объемом 200 сообщений. Параллельно
проводилась оценка результатов с помощью экспертов.