XXV Открытая конференция студентов-филологов в СПбГУ

Распознавание негативных эмоций с использованием нейросетевых технологий

Анастасия Андреевна Поволоцкая
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Фонетика (онлайн)
2022-04-22
15:00 - 15:20

Ключевые слова, аннотация

Распознавание эмоций является одной из самых актуальных тем в области машинного обучения и нейросетевых технологий. В статье описывается эксперимент, в котором проводилась запись корпуса эмоциональной речи. В основу вошел уникальный список фраз и соответствующий им контекст. Впоследствии записанный корпус был обработан и прошел апробацию с помощью перцептивного эксперимента.

Тезисы

В настоящей работе были поставлены следующие задачи: определение перечня эмоций, составление списка фраз и контекстов, запись дикторов, обработка записанного материала, проведение перцептивного эксперимента, сортировка материала на основе результатов перцептивного эксперимента, проведение тестов нейронных сетей.
В качестве материала использовались Context-Dependent Emotional Speech Dataset (записанный набор данных) и картинки с интонационными контурами фраз. Для обработки аудио-файлов использовалась программа Wave Assistant, для сохранения изображений интонационных контуров — программа «Ножницы».
Первоначальной задачей было определение списка эмоций, которые будут записываться. После анализа литературы по психологии и изучения результатов исследований в области нейробиологии, было принято решение включить в базовый перечень эмоций страх, гнев, удивление, печаль, отвращение, радость, презрение, нейтральность, а также сложную эмоцию — ехидство. Затем была проанализирована литература по эмотивной вербальной речи и разработан список эмотивных фраз и соответствующие им контексты. Перед диктором ставилась задача: про себя прочитать контекст, который соотносится с определенной фразой, мысленно погрузиться в контекст и произнести фразу таким образом, как произнес бы ее диктор, оказавшись в данной ситуации. После записи собранный материал был обработан и представлен в двух форматах: аудио и изображение. На изображении фиксировался график интонационного контура высказывания. В аудио-файле сохранялась отдельная фраза. Записанный материал прошел перцептивный эксперимент, в рамках которого респонденты отвечали на вопрос: «Какую эмоцию реализует в данном высказывании диктор?». На выбор предлагалось 9 вариантов ответа, соответствующих определенному в начале исследования списку эмоций, а также форма, где респондент мог указать собственный вариант ответа.
В результате работы было записано 72 диктора и получено 1 441 эмотивное высказывание. По результатам перцептивного эксперимента был сформирован набор данных на основе следующих критериев.
Записи распределялись по папкам с эмоциями, если получалось: 1) 100%-процентное согласие респондентов об эмоции высказывания; 2) если большинство респондентов (80%) сошлись во мнении об эмоции высказывания; 3) если 60% респондентов сошлись во мнении об эмоции высказывания при условии, что остальные 40% либо целиком, либо частично соответствуют полярности эмоции, выбранной большинством респондентов; 4) все показатели меньше 60% были отнесены в тестовую выборку, которая будет протестирована отдельно от основной тестовой выборки, сформированной из общего материала.
В дальнейшем планируется провести обучение различных топологий нейронных сетей для определения возможности предсказания эмоций.