XXIV Открытая конференция студентов-филологов в СПбГУ

Предсказание интонационной модели для синтеза речи по тексту

Алла Павловна Меньшикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Доклад посвящен описанию метода предсказания интонационных моделей для синтеза речи по тексту. Исследование проведено на материале корпуса профессионального чтения CORPRES. Предсказание реализовано с помощью методов глубинного обучения; синтаксические, лексические, морфологические и просодические признаки использовались для обучения модели. В докладе будет представлен анализ типичных ошибок, а также описана эффективность дикторозависимых моделей и признаков.

Тезисы

Синтез интонационного контура является одним из важнейших аспектов синтеза речи по тексту. С одной стороны, некачественный синтез интонации приводит к монотонному и ненатуральному звучанию речи, которую неприятно слушать и содержание которой зачастую сложно понять. С другой стороны, синтез интонации и, в частности, мелодического контура — это крайне нетривиальная задача ввиду зависимости интонационной системы от конкретного языка, большой междикторской вариативности и разнообразия лингвистических значений, передаваемых с помощью интонации. Данный доклад посвящен разработке метода предсказания мелодического оформления высказывания по текстовым признакам. Задачей метода является предсказание расположения интонационных центров синтагм внутри предложения и предсказание типов интонационных моделей, которые могут быть реализованы при синтезе данных синтагм. Инвентарь интонационных моделей определяется интонационной системой русского языка, описанной Н. Б. Вольской и содержащей 31 модель. В качестве обучающего материала использован речевой корпус CORPRES, содержащий записи чтения восемью профессиональными дикторами двух художественных рассказов (в общей сложности почти 4000 предложений). Предсказательная модель построена с помощью методов глубинного обучения: на материале просодической расшифровки речи каждого диктора была обучена дикторозависимая двунаправленная модель долгой краткосрочной памяти (Bidirectional LSTM). Были использованы синтаксические признаки (напр., тип синтаксического отношения между текущим словом и главным; номер слова, от которого зависит текущее слово), частеречные признаки, векторные представления слов, просодические признаки (границы синтагм). Определение синтаксических и частеречных признаков проводилось с помощью синтаксического парсера SyntaxNet. Для извлечения векторных представлений слов была использована модель, обученная на Национальном корпусе русского языка. Лемматизация, необходимая для извлечения векторного представления слова, осуществлялась с помощью морфоанализатора pymorphy2. Границы синтагм в текущей версии модели извлекались из просодических расшифровок; в будущем планируется интеграция в систему отдельной модели для предсказания синтагматического членения предложения. Точность предсказания расположения интонационного центра для базовой модели достигает 98%. Точность предсказания интонационной модели составляет 42%. Наибольшее число ошибок связано с моделями 05, 06a, 06b, 06c. Для улучшения эффективности модели планируется добавление большего числа лексических и семантических признаков.