XXVII Открытая конференция студентов-филологов в СПбГУ

Распознавание акцентов и оценка произношения с помощью нейронного анализа спектрограмм

Михаил Андреевич Андрианов
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

157
2024-04-26
14:20 - 14:35

Ключевые слова, аннотация

В речи содержится множество признаков, которые могут быть извлечены для дальнейшего использования в распознавании речи, определения говорящего и т. д. В данной работе будут представлены некоторые способы, а также результаты извлечения данных признаков в целях оценки произношения L2 (не родной) и определения L1 (родной).

Тезисы

Ключевые слова: оценка произношения; фонологический анализ; речь L2; определение L1; рекуррентная нейронная сеть

Существует множество способов оценки произношения в иностранном языке. Однако большая часть из них основана на человеческой оценке, которая зависит от личных ожиданий и стандартов экзаменаторов, что может приводить к непоследовательным и ненадежным оценкам. Вследствие этого возникает спрос на использование альтернативных методов оценки произношения, в частности — на автоматическую оценку с использованием современных технологий машинного обучения.
Из множества существующих моделей машинного обучения наибольшее распространение для решения схожих задач получили архитектуры, основанные на извлечении абстрактных признаков из изображений, — CNN, RNN, а также их многочисленные вариации.
В данной работе используется инструмент под названием phonet [Vásquez-Correa et al., 2019], состоящий из множества RNN с двунаправленными управляемыми рекуррентными блоками (GRU). Изначально данный инструмент был обучен для распознавания фонологических классов испанского языка. Однако в рамках данной работы он был переобучен для распознавания фонологических классов английского языка. Для обучения модели был использован корпус TIMIT, состоящий из 2342 предложений, произнесенных 630 носителями английского языка. В качестве целевого корпуса был использован корпус Speech Accent Archive, состоящий из 2140 образцов речи, каждый из которых принадлежит разным говорящим, читающим один и тот же отрывок на английском языке. Говорящие имеют 214 родных языков. Для целей исследования были собраны высказывания носителей русского языка, которым в равной пропорции были сопоставлены носители английского языка. В докладе представлены результаты использования предложенного инструмента для анализа уровня произношения иностранного языка, а также его использование для классификации акцента.

Литература:
Vásquez-Correa J.C., Klumpp P., Orozco-Arroyave J.R., Nöth E. Phonet: A Tool Based on Gated Recurrent Neural Networks to Extract Phonological Posteriors from Speech // Proc. Interspeech 2019. P. 549—553.