XXII Открытая конференция студентов-филологов в СПбГУ

Управление мелодическим оформлением высказывания в системах синтеза русской речи на основе глубоких нейронных сетей

Роман Евгеньевич Коростик
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

ауд. 157
2019-04-19
16:20 - 16:40

Ключевые слова, аннотация

Предметом исследования является система синтеза русской речи на основе глубоких нейронных сетей. Архитектура системы была модифицирована с целью добавления возможности синтезировать высказывания с заданным мелодическим оформлением. В докладе представлены результаты слухового анализа материала, полученного при помощи модифицированной системы синтеза, обученной на материале корпуса русской речи CORPRES.

Тезисы

На данный момент существуют системы синтеза речи, позволяющие синтезировать речь, не уступающую по естественности человеческой. Примерами таких моделей являются DeepVoice 3 и Tacotron 2. Тем не менее, такие системы по своему устройству являются «чёрными ящиками», превращающими текст в речевой сигнал, и не предоставляют возможности осмысленно влиять на результат синтеза. Существуют публикации, посвящённые управлению просодией в системе Tacotron 2, но в них просодия понимается холистически, как сумма всех супрасегментных явлений, без фокуса на компонентах просодии или коммуникативном типе высказывания.
Предметом исследования является способ управления мелодическим оформлением высказывания в системах синтеза речи, основанных на архитектуре Tacotron 2. Предполагается, что указание интонационной модели при помощи управляющих векторов позволит синтезировать высказывания, имеющие соответствующее модели мелодическое оформление. Исследование выполняется на материале корпуса русской речи CORPRES, содержащего интонационную разметку.
Проведённый в рамках исследования слуховой анализ подтвердил возможность синтеза высказываний с теми интонационными моделями, примеры реализации которых присутствуют в корпусе в значительном количестве (более 800). Таковыми, например, являются модели 01a (нисходящая завершённость), 11 (восходящая незавершённость), 10 (нисходящая незавершённость).
Для моделей, имеющих у каждого диктора незначительное количество реализаций (менее 100), результаты синтеза часто не соответствовали ожиданиям. К таким моделям относятся модели 06 (ровный тон), 08 (эмоционально окрашенные вопросы). Помимо этого, при синтезе модели 07 (общий вопрос) в некоторых случаях подъём тона на ударном слоге был недостаточно высок, что делало результат похожим скорее на модель 11, чем на модель 07. Причина этого явления остаётся неясной.
Результаты слухового анализа свидетельствуют о способности системы успешно синтезировать заданные интонационные модели при наличии достаточного количества примеров в обучающей выборке. В дальнейшем планируется провести перцептивный эксперимент с целью оценки разборчивости синтезируемых высказываний с точки зрения интонации.