Предсказание интонационной модели для синтеза речи по тексту
Алла Павловна Меньшикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Доклад посвящен описанию
метода предсказания
интонационных моделей для
синтеза речи по тексту. Исследование
проведено на материале корпуса
профессионального чтения CORPRES.
Предсказание реализовано
с помощью методов глубинного обучения;
синтаксические, лексические, морфологические
и просодические признаки использовались
для обучения модели. В докладе будет
представлен анализ типичных ошибок, а
также описана эффективность дикторозависимых моделей и признаков.
Тезисы
Синтез интонационного контура является
одним из важнейших аспектов синтеза
речи по тексту. С одной стороны,
некачественный синтез интонации приводит
к монотонному и ненатуральному звучанию
речи, которую неприятно слушать и
содержание которой зачастую сложно
понять. С другой стороны, синтез интонации
и, в частности, мелодического контура
—
это крайне нетривиальная задача ввиду
зависимости интонационной системы от
конкретного языка, большой междикторской
вариативности и разнообразия
лингвистических значений, передаваемых
с помощью интонации. Данный доклад
посвящен разработке метода предсказания
мелодического оформления высказывания
по текстовым признакам.
Задачей
метода является предсказание расположения
интонационных центров синтагм внутри
предложения и предсказание типов
интонационных моделей, которые могут
быть реализованы при синтезе данных
синтагм. Инвентарь интонационных моделей
определяется интонационной системой
русского языка, описанной Н. Б. Вольской
и содержащей 31 модель.
В качестве
обучающего материала использован
речевой корпус CORPRES, содержащий
записи чтения восемью
профессиональными
дикторами двух художественных рассказов
(в общей сложности почти
4000 предложений).
Предсказательная модель
построена с помощью методов глубинного
обучения: на материале просодической
расшифровки речи каждого диктора была
обучена дикторозависимая двунаправленная
модель долгой краткосрочной памяти
(Bidirectional LSTM).
Были использованы синтаксические
признаки (напр., тип синтаксического
отношения между текущим словом и главным;
номер слова, от которого зависит текущее
слово), частеречные признаки, векторные
представления слов, просодические
признаки (границы синтагм). Определение
синтаксических и частеречных признаков
проводилось с помощью синтаксического
парсера SyntaxNet.
Для извлечения векторных представлений
слов была использована модель, обученная
на Национальном корпусе русского языка.
Лемматизация, необходимая для извлечения векторного представления слова, осуществлялась с
помощью морфоанализатора pymorphy2.
Границы синтагм в текущей
версии модели извлекались из просодических
расшифровок; в будущем планируется
интеграция в систему отдельной модели
для предсказания синтагматического
членения предложения.
Точность
предсказания расположения интонационного
центра для базовой модели достигает
98%. Точность предсказания интонационной
модели составляет 42%. Наибольшее число
ошибок связано с моделями 05,
06a, 06b, 06c. Для улучшения
эффективности модели планируется
добавление большего числа лексических
и семантических признаков.