XXVII Открытая конференция студентов-филологов в СПбГУ

Синтез интонационных моделей с использованием методов машинного обучения

Евгения Алексеевна Новолодская
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

157
2024-04-27
16:45 - 17:00

Ключевые слова, аннотация

В данной работе исследуется улучшение синтеза речи с использованием архитектуры Tacotron 2. В исследовании выявляются актуальные проблемы в синтезе интонации у существующих платформ, таких как Yandex, Сбер, ElevenLabs, Bark, после чего предлагается методика дообучения архитектуры Tacotron 2 на материалах корпуса CORPRESS. Основываясь на анализе существующих моделей и их сравнении с реальной речью, исследование стремится к созданию более реалистичных и эмоционально выразительных интонационных моделей.

Тезисы

Ключевые слова: интонационные модели; архитектура Tacotron 2; синтез интонационных моделей; естественность речи;  

Область синтеза речи становится все более важной в различных приложениях, от голосовых помощников до аудиокниг. Одним из ключевых аспектов является создание интонационных моделей, которые придают речи ее эмоциональную окраску и естественность.
Однако, несмотря на множество исследований, ни одному представленному на рынке производителю не удалось добиться при синтезе полной естественности и разнообразия интонационных характеристик, сопоставимых с человеческой речью. Для понимания проблемы на первом этапе исследования был проведен сопоставительный анализ интонационных моделей во фразах, реализованных диктором и синтезированных различными голосовыми помощниками. Анализ включал 12 платформ, таких как Yandex, Сбер, ElevenLabs, Bark, и проводился по системе Н. Б. Вольской, которая включает 14 мелодических моделей с различными подтипами. По итогам исследования было выявлено, что наибольшие трудности для синтеза представляют собой фразы с общим вопросом и инверсией, повествовательные фразы с инверсией, а также фразы с различным местом фразового ударения и противопоставлением.
Второй этап исследования основывается на дообучении архитектуры Tacotron 2, включающем несколько этапов. Во-первых, проводилась подготовка данных. В качестве материала для дообучения был выбран корпус CORPRESS, составленный на основе литературных произведений. В нем записано в общей сложности 8 профессиональных дикторов, продолжительность аудиозаписей составляет 30 часов. В нашем исследовании используются записи 4 дикторов-женщин. Особенностью корпуса является наличие шести уровней аннотации, которые включают фонетическую, орфографическую и просодическую транскрипцию.  Во-вторых, производилась работа непосредственно с архитектурой Tacotron 2. Она состоит из трех сверточных слоев с 512 фильтрами размером 5 на 1 в каждом. Выходные данные последнего сверточного слоя передаются в двунаправленные LSTM-слои, где каждый слой содержит 256 нейронов. В ходе исследования были изменены гиперпараметры архитектуры, такие как размер пакета обучающих данных (batch size), скорость обучения (learning rate), коэффициент teacher-forcing. Ожидается, что такой комплексный подход, основанный на высококачественных данных для обучения и работы с моделью, приведет к улучшению системы синтеза интонации.
Использование методов машинного обучения, таких как дообучение архитектуры Tacotron 2, представляет собой перспективный подход к созданию более естественных и выразительных интонационных моделей в синтезе речи. Потенциальные области применения включают голосовых помощников, ассистентов для людей с нарушениями речи, автоматические системы аудиокниг и технологии обучения языку.