Распознавание речи людей, переживших сильное эмоциональное потрясение

Михаил Дмитриевич Долгушин

Докладчик

магистрант 2 курса
Санкт-Петербургский государственный университет

157
2024-04-27

16:15 - 16:30

Ключевые слова, аннотация

Распознавание высокоэмоциональной речи остается слабоизученной частью области речевых технологий. Цель данной работы — провести эксперименты по распознаванию высокоэмоциональной речи на материале интервью, предоставленных фондом Яд Вашем. Был составлен корпус на основе 26 часов общедоступных видеоинтервью с людьми, пережившими Холокост. Разработана система, способная распознавать эмоциональную речь на основе моделей нейронных сетей. Оценка WER полученной системы составила 35%. Представленные результаты вносят вклад в исследовательскую область распознавания эмоциональной речи.

Тезисы

Ключевые слова: автоматическое распознавание речи; разработка речевых корпусов; обработка спонтанной речи

Распознавание высокоэмоциональной акцентной речи остается слабоизученной частью области речевых технологий. Часто для обучения моделей распознавания речи и проверки их качества используются корпусы начитанной речи. В последние годы, высокое качество распознавания достигнуто и на корпусах спонтанной речи [Baevski, 2020], но число работ по распознаванию речи, затрудненной спектром речевых особенностей, остается ограниченным, несмотря на значимость исследований по оцифровке архивных аудиоматериалов с пожилыми людьми, пережившими значимые исторические события. В данном докладе ставится цель по распознаванию русской речи свидетелей Холокоста, на материале видеоинтервью, представленных фондом Яд Вашем [Bukreeva, 2023].
Материал содержит 24 интервью. Приблизительная длительность материала составляет 26 часов. Возраст интервьюируемых варьируется от 82 до 98 лет. Для 44% выборки русский не является первым языком. Отмечается интерференция с такими языками как: идиш, украинский и др. Встречаются речевые особенности, вызванные возрастными изменениями.
Материал был предварительно обработан, интервью были сегментированы в соответствии с субтитрами. Удалялись записи короче 1 секунды и длиннее 10 секунд, а также записи с пустыми субтитрами. Разработан корпус акцентной высокоэмоциональной речи свидетелей Холокоста. Корпус поделен на 3 выборки: обучающую — 70%, валидационную — 15% и тестовую — 15%. Интервьюируемые в выборках не пересекаются и сбалансированы по полу.
Для распознавания решено использовать нейросетевую модель Wav2Vec 2.0 предварительно обученную на русском языке [Bondarenko, 2022]. Данная модель выбрана, поскольку она показывает высокие результаты точности на слитной спонтанной речи и может быть дообучена на меньших объемах данных для получения более высоких результатов точности.
Проведены эксперименты по распознаванию высокоэмоциональной и акцентированной речи с помощью нейросетевой модели Wav2vec 2.0. Получены достойные результаты. Наряду с общепринятой метрикой для систем распознавания речи WER (Word Error Rate), мы также оценили CER (Character Error Rate), чтобы получить более четкое представление о производительности нашей модели. Полученные оценки WER и CER — 35 % и 21 % соответственно для модели, прошедшей настройку на нашем материале.

В результате были представлены модель распознавания речи людей, переживших сильное эмоциональное потрясение, и демонстрационный набор данных. В написанных текстах иногда встречаются неточности, а также в некоторых случаях возникает не только речь респондента, но и интервьюера. Далее планируется проверить влияние на качество распознавания паралингвистических характеристик интервьюируемых.

Литература:

Baevski A. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representation / A. Baevski, H. Zhou, A. Mohamed, M. Auli. (eds.). 2020. URL: https://arxiv.org/pdf/2006.11477.pdf (date of application: 28.02.2024).

Bondarenko I. XLSR Wav2Vec2 Russian // huggingface.co : database of AI models. URL: https://huggingface.co/bond005/wav2vec2-large-ru-golos (date of application: 18.01.2024).

Bukreeva L. Emotional Speech Recognition of Holocaust Survivors with Deep Neural Network Models for Russian Language // Speech and Computer. SPECOM 2023. Lecture Notes in Computer Science. V. 14338. Springer; Cham, 2023. P. 68—76.

XXVII Открытая конференция студентов-филологов в СПбГУ

Распознавание речи людей, переживших сильное эмоциональное потрясение

Ключевые слова, аннотация

Тезисы