Эффективность использования Tacotron2 для синтеза интонации
Анастасия Михайловна Шербан
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
В докладе рассматривается эффективность
использования Tacotron2 для генерации речевого сигнала с предварительной разметкой
интонационных моделей. Предметом исследования являются методы обучения
интонационным конструкциям нейронного синтезатора речи на материале
аудиоданных, взятых из аннотированного корпуса русской речи. Были выполнены
нормализация данных, настройка параметров модели и алгоритмов обучения, что
позволило оптимизировать процесс синтеза речи. Предварительные результаты
исследования демонстрируют способность Tacotron2 успешно воспроизводить
интонационные модели на русском языке.
Тезисы
Ключевые слова: Tacotron2; синтез речи; интонация; нейронные сети
В исследовании рассматривается эффективность Tacotron2 для синтеза интонационных моделей. Современные системы синтеза не всегда в полной мере могут воспроизводить естественные интонационные конструкции, что может снижать разборчивость и выразительность речи. В связи с этим цель исследования — оценить возможность Tacotron2 синтезировать интонационные модели на русском языке и разработать методы улучшения качества синтезированной речи. Новизна работы заключается в адаптации архитектуры нейронной сети для работы с интонационными моделями на русском языке.
Теоретический аспект работы заключается в изучении современных методов синтеза речи, включая историческое развитие данной технологии [Соломенник, 2013], а также в анализе функций интонации. Было рассмотрено две классификации интонации — Е. А. Брызгуновой [Брызгунова, 1981] и Н. Б. Вольской [Вольская, Скрелин, 2009]. Практический этап исследования включает в себя адаптацию архитектуры Tacotron2, разработанной компанией NVIDIA для работы с русским языком и интонационными конструкциями.
В качестве материала исследования использовались данные из аннотированного корпуса русской монологической речи CORPRES, содержащие аудиозаписи с интонационной разметкой по классификации Н. Б. Вольской, включающей в себя четырнадцать интонационных моделей, каждая из которых имеет свой подтип. Использование разметки интонационных конструкций в процессе обучения позволяет Tacotron2 учитывать просодические особенности речи и синтезировать более естественные речевые сигналы. В ходе исследования была проведена нормализация входных данных под формат синтезатора. Пример нормализованных данных для обучения: «wavs/1_248.wav|и все-таки она договорит до конца|10». Стоит отметить, что данные состоят из пути к файлу, текстовой расшифровки аудио и номера интонационной модели. Следующим этапом работы является настройка гиперпараметров модели и обучение Tacotron2 на предобработанных данных. Важным этапом работы является анализ качества синтеза речи, включающий оценку соответствия интонационного контура синтезированного сигнала с исходной интонационной моделью согласно разметке в корпусе.
Результаты исследования показывают, что Tacotron2 демонстрирует достаточно хорошую обучаемость при воспроизведении интонации. Модель способна синтезировать различные интонационные конструкции, что подтверждается сравнением синтезированных аудиозаписей с реальными речевыми данными и анализом их мелодических контуров. Полученные результаты свидетельствуют о перспективности дальнейшего развития нейросетевых систем синтеза речи с учетом интонации. Внедрение подобных технологий в существующие системы синтеза речи позволит добиться большей естественности звучания и сделать синтезированную речь более выразительной и ясной для восприятия.
Литература:
Брызгунова Е. А. Звуки и интонации русской речи. М., 1981.
Вольская Н. Б., Скрелин П. А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Третий междисциплинарный семинар «Анализ разговорной русской речи» АР³, 26–27 августа 2009. СПб, 2009. С. 28—40.
Соломенник А. И. Технология синтеза речи: история и методология исследований // Вестник Московского университета. 2013. №6. С. 149—162.
В исследовании рассматривается эффективность Tacotron2 для синтеза интонационных моделей. Современные системы синтеза не всегда в полной мере могут воспроизводить естественные интонационные конструкции, что может снижать разборчивость и выразительность речи. В связи с этим цель исследования — оценить возможность Tacotron2 синтезировать интонационные модели на русском языке и разработать методы улучшения качества синтезированной речи. Новизна работы заключается в адаптации архитектуры нейронной сети для работы с интонационными моделями на русском языке.
Теоретический аспект работы заключается в изучении современных методов синтеза речи, включая историческое развитие данной технологии [Соломенник, 2013], а также в анализе функций интонации. Было рассмотрено две классификации интонации — Е. А. Брызгуновой [Брызгунова, 1981] и Н. Б. Вольской [Вольская, Скрелин, 2009]. Практический этап исследования включает в себя адаптацию архитектуры Tacotron2, разработанной компанией NVIDIA для работы с русским языком и интонационными конструкциями.
В качестве материала исследования использовались данные из аннотированного корпуса русской монологической речи CORPRES, содержащие аудиозаписи с интонационной разметкой по классификации Н. Б. Вольской, включающей в себя четырнадцать интонационных моделей, каждая из которых имеет свой подтип. Использование разметки интонационных конструкций в процессе обучения позволяет Tacotron2 учитывать просодические особенности речи и синтезировать более естественные речевые сигналы. В ходе исследования была проведена нормализация входных данных под формат синтезатора. Пример нормализованных данных для обучения: «wavs/1_248.wav|и все-таки она договорит до конца|10». Стоит отметить, что данные состоят из пути к файлу, текстовой расшифровки аудио и номера интонационной модели. Следующим этапом работы является настройка гиперпараметров модели и обучение Tacotron2 на предобработанных данных. Важным этапом работы является анализ качества синтеза речи, включающий оценку соответствия интонационного контура синтезированного сигнала с исходной интонационной моделью согласно разметке в корпусе.
Результаты исследования показывают, что Tacotron2 демонстрирует достаточно хорошую обучаемость при воспроизведении интонации. Модель способна синтезировать различные интонационные конструкции, что подтверждается сравнением синтезированных аудиозаписей с реальными речевыми данными и анализом их мелодических контуров. Полученные результаты свидетельствуют о перспективности дальнейшего развития нейросетевых систем синтеза речи с учетом интонации. Внедрение подобных технологий в существующие системы синтеза речи позволит добиться большей естественности звучания и сделать синтезированную речь более выразительной и ясной для восприятия.
Литература:
Брызгунова Е. А. Звуки и интонации русской речи. М., 1981.
Вольская Н. Б., Скрелин П. А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Третий междисциплинарный семинар «Анализ разговорной русской речи» АР³, 26–27 августа 2009. СПб, 2009. С. 28—40.
Соломенник А. И. Технология синтеза речи: история и методология исследований // Вестник Московского университета. 2013. №6. С. 149—162.