«Меньше человекочасов — больше корпус»: автоматическое транскрибирование русской устной речи при помощи инструмента Kaldi
Лада Леонидовна Скоробагатько
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2024-04-26
16:45 -
17:00
Ключевые слова, аннотация
Исследование посвящено автоматизации транскрибирования устной речи. Используется инструмент Kaldi для обучения моделей на материале из Корпуса русской устной речи. Были обучены 16 моделей, модель со словарем в виде целых слов показала худший результат, в то время как алгоритм с использованием словаря аллофонов продемонстрировал лучший показатель метрики Word Error Rate. Изменение параметров лингвистической модели (в частности, длины N-грамм) также улучшило результаты: удалось снизить показатель Word Error Rate на 4%.
Тезисы
Ключевые слова: автоматическое распознавание речи; фонетическая транскрипция; русская устная речь
«Корпус русской устной речи» является материалом для исследований в области порождения и восприятия речи. Аннотирование корпуса включает в себя орфографическую расшифровку и акустико-фонетическую транскрипцию, которая осуществляется экспертами вручную, из-за чего пополнение корпуса требует большого количества времени и человеческих ресурсов. Это делает разработку алгоритма, который автоматизировал бы данные процессы.
Целью исследования было найти оптимальный способ автоматизации процессов, связанных с транскрибированием русской устной речи.
Для подобных задач может использоваться инструмент Kaldi. Он доступен бесплатно, в ходе работы с ним возможно обучить модель на собственном материале, а также он уже показал хорошие результаты на материале других языков [Bu et al., 2017; Kew et al., 2020]. В связи с этим мы решили использовать его для создания акустико-фонетической транскрипции русской устной речи.
Материалом для обучения моделей в Kaldi послужило 3083 межпаузальных интервала, взятых из трех аудиофайлов общей продолжительностью звучания 81 мин. 40 с., с их транскрипциями, взятыми из Корпуса русской устной речи. Межпаузальные интервалы были разделены на обучающую и тестовую выборки в соотношении 8 к 2. Первая нужна была непосредственно для обучения моделей на собранном материале, вторая служила для оценки качества работы модели.
Было обучено в общей сложности 16 моделей. Обучение модели №1 производилось на словаре с токенами в виде целых слов. Словарь — это совокупность всех слов (под словами понимается промежуток между пробелами), которые потенциально могут встретиться в ходе работы алгоритма; алгоритм в момент распознавания речи выбирает из словаря наиболее вероятный токен, который произносится в межпаузальном интервале. Результаты работы оказались неудовлетворительными: Word Error Rate (далее — WER) и Sentence Error Rate (далее — SER) для разных способов обучения в среднем составляли 89,4% и 92,2% соответственно.
Было решено обучить модель №2 с очень маленьким словарем, в котором содержались бы не слова, а аллофоны. Такая конфигурация больше отвечала цели исследования, поскольку важно было обучить алгоритм таким образом, чтобы он распознавал конкретно аллофоны. Результаты работы модели №2 стали значительно лучше: значение метрики WER составило всего 42,27%. Метрику SER было решено не воспринимать как маркер улучшения работы, поскольку она указывает на процент верно распознанных межпаузальных интервалов, а не аллофонов.
Также было отмечено, что при изменении некоторых параметров лингвистической модели улучшаются результаты транскрибирования. В частности, это касалось длины N-грамм: при длине от 4 до 5 WER опускается до 38%, т. е. снижается на 4%. Мы предполагаем, что это связано с тем, что значение моды длины межпаузальных интервалов в тестовой выборке равняется 6.
Работа выполнена при поддержке СПбГУ, шифр проекта 103923108.
Литература:
Bu H., Du J., Na X., Wu B., Zheng H. AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline // URL: https://arxiv.org/abs/1709.05522 (дата обращения: 29.02.2024)
Kew T., Nigmatulina I., Samardzic T. UZH TILT: A Kaldi recipe for Swiss German Speech to Standard German Text // Proceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects. Zurich, Switzerland, 2020. P. 15—24.
«Корпус русской устной речи» является материалом для исследований в области порождения и восприятия речи. Аннотирование корпуса включает в себя орфографическую расшифровку и акустико-фонетическую транскрипцию, которая осуществляется экспертами вручную, из-за чего пополнение корпуса требует большого количества времени и человеческих ресурсов. Это делает разработку алгоритма, который автоматизировал бы данные процессы.
Целью исследования было найти оптимальный способ автоматизации процессов, связанных с транскрибированием русской устной речи.
Для подобных задач может использоваться инструмент Kaldi. Он доступен бесплатно, в ходе работы с ним возможно обучить модель на собственном материале, а также он уже показал хорошие результаты на материале других языков [Bu et al., 2017; Kew et al., 2020]. В связи с этим мы решили использовать его для создания акустико-фонетической транскрипции русской устной речи.
Материалом для обучения моделей в Kaldi послужило 3083 межпаузальных интервала, взятых из трех аудиофайлов общей продолжительностью звучания 81 мин. 40 с., с их транскрипциями, взятыми из Корпуса русской устной речи. Межпаузальные интервалы были разделены на обучающую и тестовую выборки в соотношении 8 к 2. Первая нужна была непосредственно для обучения моделей на собранном материале, вторая служила для оценки качества работы модели.
Было обучено в общей сложности 16 моделей. Обучение модели №1 производилось на словаре с токенами в виде целых слов. Словарь — это совокупность всех слов (под словами понимается промежуток между пробелами), которые потенциально могут встретиться в ходе работы алгоритма; алгоритм в момент распознавания речи выбирает из словаря наиболее вероятный токен, который произносится в межпаузальном интервале. Результаты работы оказались неудовлетворительными: Word Error Rate (далее — WER) и Sentence Error Rate (далее — SER) для разных способов обучения в среднем составляли 89,4% и 92,2% соответственно.
Было решено обучить модель №2 с очень маленьким словарем, в котором содержались бы не слова, а аллофоны. Такая конфигурация больше отвечала цели исследования, поскольку важно было обучить алгоритм таким образом, чтобы он распознавал конкретно аллофоны. Результаты работы модели №2 стали значительно лучше: значение метрики WER составило всего 42,27%. Метрику SER было решено не воспринимать как маркер улучшения работы, поскольку она указывает на процент верно распознанных межпаузальных интервалов, а не аллофонов.
Также было отмечено, что при изменении некоторых параметров лингвистической модели улучшаются результаты транскрибирования. В частности, это касалось длины N-грамм: при длине от 4 до 5 WER опускается до 38%, т. е. снижается на 4%. Мы предполагаем, что это связано с тем, что значение моды длины межпаузальных интервалов в тестовой выборке равняется 6.
Работа выполнена при поддержке СПбГУ, шифр проекта 103923108.
Литература:
Bu H., Du J., Na X., Wu B., Zheng H. AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline // URL: https://arxiv.org/abs/1709.05522 (дата обращения: 29.02.2024)
Kew T., Nigmatulina I., Samardzic T. UZH TILT: A Kaldi recipe for Swiss German Speech to Standard German Text // Proceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects. Zurich, Switzerland, 2020. P. 15—24.