Распознавание негативных эмоций с использованием нейросетевых технологий
Анастасия Андреевна Поволоцкая
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Фонетика (онлайн)
2022-04-22
15:00 -
15:20
Ключевые слова, аннотация
Распознавание эмоций является одной из самых актуальных тем в
области машинного обучения и нейросетевых технологий. В статье описывается
эксперимент, в котором проводилась запись корпуса эмоциональной речи. В основу
вошел уникальный список фраз и соответствующий им контекст. Впоследствии записанный корпус был обработан и прошел апробацию с помощью перцептивного
эксперимента.
Тезисы
В настоящей работе были поставлены следующие задачи: определение перечня эмоций, составление
списка фраз и контекстов, запись дикторов, обработка записанного материала, проведение перцептивного эксперимента, сортировка материала на основе
результатов перцептивного эксперимента, проведение тестов нейронных сетей.
В качестве материала использовались Context-Dependent Emotional Speech Dataset (записанный
набор данных) и картинки с интонационными контурами фраз. Для обработки аудио-файлов использовалась программа Wave Assistant, для сохранения изображений интонационных контуров — программа «Ножницы».
Первоначальной задачей было определение списка эмоций,
которые будут записываться. После анализа литературы по психологии и изучения результатов
исследований в области нейробиологии, было принято решение включить в базовый
перечень эмоций страх,
гнев, удивление, печаль, отвращение, радость, презрение, нейтральность, а также
сложную эмоцию — ехидство.
Затем
была проанализирована литература по эмотивной вербальной речи и разработан
список эмотивных фраз и соответствующие им контексты. Перед диктором ставилась
задача: про себя прочитать контекст, который соотносится с определенной фразой,
мысленно погрузиться в контекст и произнести фразу таким образом, как произнес бы ее диктор, оказавшись в данной ситуации.
После
записи собранный материал был обработан и представлен в двух
форматах: аудио и изображение. На изображении фиксировался график
интонационного контура высказывания. В аудио-файле сохранялась отдельная фраза.
Записанный
материал прошел перцептивный эксперимент, в рамках которого респонденты
отвечали на вопрос: «Какую эмоцию реализует в данном высказывании диктор?». На выбор
предлагалось 9 вариантов ответа, соответствующих определенному в начале
исследования списку эмоций, а также форма, где респондент мог указать
собственный вариант ответа.
В результате работы было
записано 72 диктора и получено 1 441 эмотивное высказывание. По результатам перцептивного
эксперимента был сформирован набор данных на основе следующих критериев.
Записи распределялись по
папкам с эмоциями, если получалось: 1) 100%-процентное согласие
респондентов об эмоции высказывания; 2) если большинство
респондентов (80%) сошлись во мнении об эмоции высказывания; 3) если 60% респондентов
сошлись во мнении об эмоции высказывания при условии, что остальные 40% либо целиком, либо частично соответствуют полярности эмоции, выбранной
большинством респондентов; 4) все показатели меньше 60% были отнесены в тестовую выборку, которая будет протестирована
отдельно от основной тестовой выборки, сформированной из общего
материала.
В дальнейшем планируется провести обучение различных топологий
нейронных сетей для определения возможности предсказания эмоций.