Автоматическое порождение естественного звучания мелодического оформления с заданными параметрами
Мария Викторовна Булахтина
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2014-04-10
16:40 -
17:00
Ключевые слова, аннотация
Задача модификации звучащей речи актуальна во многих
предметных областях. В имеющихся программно-аппаратных комплексах применяются
преимущественно алгоритмы преобразования сигнала в частотной области, дающие хороший
результат при работе с музыкой и вокальной речью. Целью исследования является разработка алгоритма
коррекции интонации, качественно (с пренебрежимо малыми искажениями)
обрабатывающего устную речь.
Тезисы
Задача модификации звучащей речи встречается во многих
предметных областях. В имеющихся программно-аппаратных комплексах применяются
преимущественно алгоритмы преобразования сигнала в частотной области, дающие хороший
результат при работе с музыкой и вокальной речью.
Целью настоящей работы является разработка алгоритма коррекции интонации, качественно (с пренебрежимо малыми искажениями) обрабатывающего устную речь.
Одним из наиболее существенных недостатков обработки речи в частотной области является искажение границ глухих смычных согласных с гласными звуками. В связи с тем, что для хорошей обработки смычных более естественна обработка сигнала во временной области, в данной работе за основу был взят известный алгоритм PSOLA.
Идейно этот алгоритм весьма прост, однако проблемы начинаются при разработке автоматической реализации. В связи с этим, для усовершенствования работы существующего алгоритма также был решён ряд вторичных задач: автоматическая постановка точных границ глухих и звонких участков, разметка на периоды ОТ, коррекция паразитного изменения длительности фонем.
Пилотный эксперимент показал: наиболее естественное звучание дает вариант PSOLA с линейным предсказанием (отсутствуют эхо и сдвиг формант).
Материал исследования: запись двух пар дикторов разного пола. Первая пара читала изолированные слова фонетически представительного текста, вторая – текст целиком. Суть эксперимента – синтез связного текста из изолированных слов и перенос на него мелодического оформления из записей второй пары.
Перцептивный эксперимент показал практически приемлемую естественность звучания синтезированного материала.
Целью настоящей работы является разработка алгоритма коррекции интонации, качественно (с пренебрежимо малыми искажениями) обрабатывающего устную речь.
Одним из наиболее существенных недостатков обработки речи в частотной области является искажение границ глухих смычных согласных с гласными звуками. В связи с тем, что для хорошей обработки смычных более естественна обработка сигнала во временной области, в данной работе за основу был взят известный алгоритм PSOLA.
Идейно этот алгоритм весьма прост, однако проблемы начинаются при разработке автоматической реализации. В связи с этим, для усовершенствования работы существующего алгоритма также был решён ряд вторичных задач: автоматическая постановка точных границ глухих и звонких участков, разметка на периоды ОТ, коррекция паразитного изменения длительности фонем.
Пилотный эксперимент показал: наиболее естественное звучание дает вариант PSOLA с линейным предсказанием (отсутствуют эхо и сдвиг формант).
Материал исследования: запись двух пар дикторов разного пола. Первая пара читала изолированные слова фонетически представительного текста, вторая – текст целиком. Суть эксперимента – синтез связного текста из изолированных слов и перенос на него мелодического оформления из записей второй пары.
Перцептивный эксперимент показал практически приемлемую естественность звучания синтезированного материала.