XXVIII Открытая конференция студентов-филологов в СПбГУ

Методы анализа, модификации и моделирования просодического тембра

Анна Олеговна Титюшина
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе представлен алгоритм, позволяющий с помощью ресинтеза естественного сигнала определять акустические корреляты тембра речи, окрашенной различными эмоциональными оттенками. Кроме того, описан подход к построению общих моделей тембра, связанных с передачей различных эмоций, для последующей генерации искусственного сигнала с желаемыми просодическими характеристиками.

Тезисы

Ключевые слова: просодический тембр; цифровая обработка сигнала; ресинтез; синтез речи

Восприятие человеческих эмоций в речи — это сложный процесс, который можно связать с некоторыми измеримыми характеристиками, такими как изменения частоты основного тона и интенсивности, длительности аллофонов, а также спектральные особенности речевого сигнала. Тембр речи, который связан со спектральными характеристиками, является одним из основных компонентов просодии. Просодический тембр отражает эмоциональные коннотации в речи, в то время как индивидуальный тембр ассоциируется с личными неизменными характеристиками голоса говорящего.
В настоящее время существуют методы клонирования тембра на основе нейронных сетей. Однако эти модели требуют существенного объема данных для обучения. Преимущественно они обучаются на параллельных корпусах одинаковых высказываний, произнесенных в разных эмоциональных контекстах. Проблема отражения просодии для высказываний с различным текстовым содержанием остается открытой. В данной работе предлагается метод, который позволяет проверить значимость акустических параметров высказывания и обнаружить взаимосвязь между спектральными характеристиками звука и эмоциональным контекстом. Он основан на ресинтезе, методе модификации акустических характеристик речевого сигнала, направленном на воспроизведение целевого сигнала с высоким уровнем перцептивного сходства.
Предложенный метод основан на обнаружении наиболее значимых частот спектра периодов гласных звуков и реконструкции новых полностью синтезированных гласных с использованием найденных частот, целевой продолжительности и контуров частоты основного тона. Ресинтезированное высказывание строится из синтезированных сонорных звуков на основе спектра целевого высказывания и остальных аллофонов, взятых из исходного высказывания. Для тестирования предложенного алгоритма использовался набор высказываний с идентичным текстовым содержанием и различными эмоциональными контекстами, прочитанными одним и тем же говорящим. Перцептивный эксперимент подтвердил, что разработанный метод позволяет достичь высокого уровня сходства между целевым высказыванием и ресинтезированным. Синтезированное высказывание передает эмоциональный контекст целевого высказывания и теряет свой предыдущий тон.
Полученные результаты позволяют исследовать, какие особенности спектра гласного имеют отношение к выражению эмоций в речи, и строить модели просодического тембра, связанные с различными эмоциональными аспектами. Кроме того, предложен метод построения таких моделей на основе выделенных с помощью описанного выше алгоритма частот, представленных в барк-шкале. Результаты данного исследования могут быть использованы в области распознавания эмоций и синтеза эмоциональной речи.