XXVII Открытая конференция студентов-филологов в СПбГУ

Восприятие интонации в синтезированной речи

Дарья Сергеевна Гинева
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

157
2024-04-26
15:50 - 16:05

Ключевые слова, аннотация

Целью настоящего доклада является изучение интонационного оформления синтезированной речи и перцептивная оценка её естественности. Был проведён визуальный и акустический анализ, а также перцептивный эксперимент. Определено наличие зависимости естественности звучания синтезированной речи от пола и возраста диктора.

Тезисы

Ключевые слова: фонетика; синтез речи; интонационное оформление; мелодический контур

Просодическое оформление речевого сигнала является важной задачей синтеза речи. Однако в настоящее время интонация синтезированной речи ещё не может считаться совершенно естественной.
Целью данного доклада является выявление особенностей интонационного оформления синтезированной речи и наиболее частотных ошибок в просодике, допускаемых синтезаторами, а также изучение восприятия синтезированной речи и перцептивная оценка естественности её звучания.
Исследование построено на материале синтезированной речи. Была проанализирована речь синтезаторов «Sber Salut Speech», «Yandex Cloud SpeechKit» и «Звукограм», использующих технологию Text-To-Speech. В качестве материала были использованы фонетически представительный текст «Был тихий серый вечер», 25 скороговорок, 5 стихотворений, а также набор фраз, потенциально соответствующих каждой из 7 интонационных конструкций по классификации Е. А. Брызгуновой [Брызгунова, 1980]. Общая длительность речевого материала составила 133 минуты.

С помощью программы Praat был произведён анализ мелодических контуров всего материала с целью поиска ошибок в интонационном оформлении. Наиболее часто ошибки встречались в синтагмах с ИК-4; в то же время в собранном материале ни разу не встретилась ИК-7 и практически не встречались ИК-5 и ИК-6.
В результате сравнения мелодических контуров и акустического анализа исходного материала было обнаружено наличие нескольких существенных черт, отличающих мужские синтезированные голоса от женских. В высказываниях, произнесённых мужским голосом, наблюдалось сужение мелодического диапазона (в среднем 6.2 полутонов).
Из отобранного материала были выбраны фразы, состоящие из одной или нескольких синтагм, для проведения перцептивного эксперимента. Опрашиваемым было предложено оценить естественность звучания синтезированной речи по десятибалльной шкале. По результатам опроса было обнаружено, что мужские синтезированные голоса воспринимаются как более естественные, нежели женские (средняя оценка мужской речи составила 6.67, а женской — 5.26; медианные значения — 7.0 и 5.0 соответственно). Наиболее высокие оценки (в среднем 8.52) получил мужской голос пожилого человека, характеризующийся хриплым тембром и ещё более суженным мелодическим диапазоном по сравнению с другими мужскими голосами (в среднем 5.7 пт). Голос пожилой женщины также считался участниками опроса более естественным, чем прочие женские голоса (средняя оценка — 6.42). Таким образом, полученный результат свидетельствует о более естественном звучании синтезированной мужской речи по сравнению с женской.
Полученные результаты могут быть учтены для улучшения качества синтеза речи, а также при обучении голосовых помощников, антропоморфных роботов или роботизированных интерфейсов.

Литература:
Брызгунова Е. А. Интонация // Русская грамматика. Т. 1. / Гл. ред. Н. Ю. Шведова. М., 1980. С. 96—122.