XVII Международная конференция студентов-филологов

Автоматическое порождение естественного звучания мелодического оформления с заданными параметрами

Мария Викторовна Булахтина
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

157
2014-04-10
16:40 - 17:00

Ключевые слова, аннотация

Задача модификации звучащей речи актуальна во многих предметных областях. В имеющихся программно-аппаратных комплексах применяются преимущественно алгоритмы преобразования сигнала в частотной области, дающие хороший результат при работе с музыкой и вокальной речью. Целью исследования является разработка алгоритма коррекции интонации, качественно (с пренебрежимо малыми искажениями) обрабатывающего устную речь.

Тезисы

Задача модификации звучащей речи встречается во многих предметных областях. В имеющихся программно-аппаратных комплексах применяются преимущественно алгоритмы преобразования сигнала в частотной области, дающие хороший результат при работе с музыкой и вокальной речью.
Целью настоящей работы является разработка алгоритма коррекции интонации, качественно (с пренебрежимо малыми искажениями) обрабатывающего устную речь.
Одним из наиболее существенных недостатков обработки речи в частотной области является искажение границ глухих смычных согласных с гласными звуками. В связи с тем, что для хорошей обработки смычных более естественна обработка сигнала во временной области, в данной работе за основу был взят известный алгоритм PSOLA.
 
Идейно этот алгоритм весьма прост, однако проблемы начинаются при разработке автоматической реализации. В связи с этим, для усовершенствования работы существующего алгоритма также был решён ряд вторичных задач: автоматическая постановка точных границ глухих и звонких участков, разметка на периоды ОТ, коррекция паразитного изменения длительности фонем.
Пилотный эксперимент показал: наиболее естественное звучание дает вариант PSOLA с линейным предсказанием (отсутствуют эхо и сдвиг формант).
Материал исследования: запись двух пар дикторов разного пола. Первая пара читала изолированные слова фонетически представительного текста, вторая – текст целиком. Суть эксперимента – синтез связного текста из изолированных слов и перенос на него мелодического оформления из записей второй пары.
Перцептивный эксперимент показал практически приемлемую естественность звучания синтезированного материала.