Оценка эффективности акустических моделей для систем распознавания речи на ограниченном материале
Павел Андреевич Холявин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 157
2019-04-18
15:00 -
15:20
Ключевые слова, аннотация
Целью данного исследования является анализ целесообразности использования специально подготовленного ограниченного речевого материала для обучения акустических моделей системы автоматического распознавания спонтанной речи. Материалом для исследования послужили записи фонетически представительного текста, спонтанной речи из корпуса CORUSS и чтения из корпуса CORPRES. Результаты показали, что использование фонетически представительного текста не дает преимущества для распознавания речи по сравнению с фрагментом из корпуса чтения сравнимого объема (3—5 минут).
Тезисы
Целью
данного исследования стал анализ того,
является ли целесообразным использование
фонетически представительного текста
(ФПТ), то есть ограниченного по объему
материала, для обучения акустических
моделей в системах автоматического
распознавания спонтанной речи. ФПТ —
это специально сконструированный текст
длиной около 1 стр., в котором
присутствуют все частотные слоги
русского языка; частотность звуков в
нем несколько отличается от таковой в
естественном материале сравнимого
объема.
Известно, что по достижении объемом обучающего материала некоторого предельного значения (около 5 мин.) дальнейшее его увеличение только незначительно улучшает результаты распознавания, что делает перспективным исследование особенностей обучения акустических моделей на ограниченном материале.
Материал исследования — около десяти записей ФПТ «Был тихий серый вечер» от дикторов обоего пола, использовавшиеся для обучения системы, а также записи спонтанных диалогов пяти человек, на которых проверялась работа системы. Все записи были взяты из корпуса спонтанной речи CORUSS.
В ходе эксперимента были обучены монофонные акустические модели на материале разного количества записей ФПТ. При помощи пакета SRILM были созданы языковые модели на основе текстовых записей спонтанной речи; это было сделано с целью минимизировать влияние языковой модели на результаты распознавания, что, в свою очередь, позволило детальнее изучить влияние акустической модели.
Словарь каждой языковой модели составил около 150 000 слов, использовалась фонемная транскрипция с выделением ударения. Для создания акустических моделей и распознавания речи был использован инструментарий Kaldi. Затем было проведено распознавание фрагментов спонтанной речи, при этом в зависимости от конфигурации речь диктора, чей материал распознавался, могла как входить, так и не входить в обучающую выборку.
Качество распознавания было оценено при помощи параметров WER (то есть доли неправильно распознанных слов) и PER (процента неправильно распознанных звуков), а также анализа матриц ошибок. Результаты показывают, что использование ФПТ не дает преимущества при распознавании речи: в эксперименте с четырьмя записями ФПТ показатель WER составил 57.94 %, при этом в аналогичных экспериментах с использованием корпусов чтения WER составил 55.18 %.
Перспективным направлением развития представляется создание нового произносительного словаря, лучше отражающего особенности спонтанной речи, и использование расширенного набора аллофонов. Так, добавление в список звуков, которыми оперирует система, аллофона фонемы /a/ второй степени редукции ([ъ]) позволило улучшить WER до 56.40 %. Для уточнения оптимального набора аллофонов и составления модифицированных транскрипций потребуется детальный анализ ошибок, совершенных системой при распознавании.
Известно, что по достижении объемом обучающего материала некоторого предельного значения (около 5 мин.) дальнейшее его увеличение только незначительно улучшает результаты распознавания, что делает перспективным исследование особенностей обучения акустических моделей на ограниченном материале.
Материал исследования — около десяти записей ФПТ «Был тихий серый вечер» от дикторов обоего пола, использовавшиеся для обучения системы, а также записи спонтанных диалогов пяти человек, на которых проверялась работа системы. Все записи были взяты из корпуса спонтанной речи CORUSS.
В ходе эксперимента были обучены монофонные акустические модели на материале разного количества записей ФПТ. При помощи пакета SRILM были созданы языковые модели на основе текстовых записей спонтанной речи; это было сделано с целью минимизировать влияние языковой модели на результаты распознавания, что, в свою очередь, позволило детальнее изучить влияние акустической модели.
Словарь каждой языковой модели составил около 150 000 слов, использовалась фонемная транскрипция с выделением ударения. Для создания акустических моделей и распознавания речи был использован инструментарий Kaldi. Затем было проведено распознавание фрагментов спонтанной речи, при этом в зависимости от конфигурации речь диктора, чей материал распознавался, могла как входить, так и не входить в обучающую выборку.
Качество распознавания было оценено при помощи параметров WER (то есть доли неправильно распознанных слов) и PER (процента неправильно распознанных звуков), а также анализа матриц ошибок. Результаты показывают, что использование ФПТ не дает преимущества при распознавании речи: в эксперименте с четырьмя записями ФПТ показатель WER составил 57.94 %, при этом в аналогичных экспериментах с использованием корпусов чтения WER составил 55.18 %.
Перспективным направлением развития представляется создание нового произносительного словаря, лучше отражающего особенности спонтанной речи, и использование расширенного набора аллофонов. Так, добавление в список звуков, которыми оперирует система, аллофона фонемы /a/ второй степени редукции ([ъ]) позволило улучшить WER до 56.40 %. Для уточнения оптимального набора аллофонов и составления модифицированных транскрипций потребуется детальный анализ ошибок, совершенных системой при распознавании.