Автоматическое определение ошибок произношения на изучаемом языке (на материале речи русских на английском языке)
Галина Андреевна Скачкова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2024-04-27
17:15 -
17:30
Ключевые слова, аннотация
Предметом исследования
выступают явления русско-английской фонетической интерференции, рассматриваемые
с целью разработки автоматических алгоритмов оценивания произношения
британского варианта английского языка русскоязычных обучающихся. Из аудиозаписей
с эталонным произношением британского варианта английского языка были извлечены
примеры использования смычных согласных с наличием или отсутствием придыхания. На
основе полученных данных был составлен датафрейм и обучена нейросетевая модель
бинарной классификации для определения соответствия эталонному варианту.
Тезисы
Ключевые слова: придыхание;
интерференция; британский вариант английского языка; автоматическое
распознавание речи; нейросетевые технологии
Основываясь на ранее проведенных исследованиях [Guskaroska, 2019; Eskenazi, 2009], можно сделать вывод об эффективном использовании технологии автоматического распознавания речи для совершенствования произносительных навыков. В отличие от вышеупомянутых работ, данное исследование направлено на разработку более сложного автоматического алгоритма оценки произношения, который будет указывать на конкретную фонему, в произношении которой была допущена ошибка. Т. к. реализация дифференциального признака английских согласных сильный, слабый значительно отличается от реализации признака глухой, звонкий, характерного для русского консонантизма [Шамина, Суховалов, 2018], в качестве целевых фонем были выбраны английские глухие смычные p, t, k. Источником материала исследования послужил корпус британского варианта английского языка LUCID [LUCID Corpus], в котором содержатся записи чтения заранее подготовленного текста: 296 минут женской и 237 минут мужской речи. Для каждого аудиофайла представлена разметка по словам.
Для расставления границ между фонемами было использовано приложение Kaldi, система распознавания речи, работающая на основе модульного подхода. Затем на языке программирования Python были подготовлены скрипты для получения целевых фрагментов и предобработки данных. Для обучения нейросети по каждому целевому фрагменту были рассчитаны следующие акустические характеристики: мел-кепстральные коэффициенты (mfcc), скорость пересечения нуля, отношение сигнала к шуму, построены спектрограммы, а также добавлен вектор с дифференциальными признаками целевых фонем. Нейросеть, обученная на подготовленном датафрейме, позволяет оценить качество произношения каждой целевой фонемы, встречающейся в слове, а также указать на конкретные сочетания, в которых была допущена ошибка. Такая обратная связь является надежным инструментом оценки конкретных произносительных навыков, вызывающих особые сложности у носителей русского языка.
Литература:
Шамина Е. А., Суховалов И. И. Учебник американской фонетики: системные принципы разработки // Сборник научных трудов IX Международной научно-практической конференции «Учитель. Ученик. Учебник», 18—19 октября 2018. М., 2019. C. 401—404.
Eskenazi M. An overview of spoken language technology for education // Speech Communication. Pittsburgh, 2009. P. 832—844.
Guskaroska A. ASR as a tool for providing feedback for vowel pronunciation practice. Iowa, 2019.
LUCID Corpus — London UCL Clear speech in interaction. URL: https://valeriehazan.com/wp/index.php/lucid-corpus-london-ucl-clear-speech-in-interaction/ (accessed: 01.10.2023).
Основываясь на ранее проведенных исследованиях [Guskaroska, 2019; Eskenazi, 2009], можно сделать вывод об эффективном использовании технологии автоматического распознавания речи для совершенствования произносительных навыков. В отличие от вышеупомянутых работ, данное исследование направлено на разработку более сложного автоматического алгоритма оценки произношения, который будет указывать на конкретную фонему, в произношении которой была допущена ошибка. Т. к. реализация дифференциального признака английских согласных сильный, слабый значительно отличается от реализации признака глухой, звонкий, характерного для русского консонантизма [Шамина, Суховалов, 2018], в качестве целевых фонем были выбраны английские глухие смычные p, t, k. Источником материала исследования послужил корпус британского варианта английского языка LUCID [LUCID Corpus], в котором содержатся записи чтения заранее подготовленного текста: 296 минут женской и 237 минут мужской речи. Для каждого аудиофайла представлена разметка по словам.
Для расставления границ между фонемами было использовано приложение Kaldi, система распознавания речи, работающая на основе модульного подхода. Затем на языке программирования Python были подготовлены скрипты для получения целевых фрагментов и предобработки данных. Для обучения нейросети по каждому целевому фрагменту были рассчитаны следующие акустические характеристики: мел-кепстральные коэффициенты (mfcc), скорость пересечения нуля, отношение сигнала к шуму, построены спектрограммы, а также добавлен вектор с дифференциальными признаками целевых фонем. Нейросеть, обученная на подготовленном датафрейме, позволяет оценить качество произношения каждой целевой фонемы, встречающейся в слове, а также указать на конкретные сочетания, в которых была допущена ошибка. Такая обратная связь является надежным инструментом оценки конкретных произносительных навыков, вызывающих особые сложности у носителей русского языка.
Литература:
Шамина Е. А., Суховалов И. И. Учебник американской фонетики: системные принципы разработки // Сборник научных трудов IX Международной научно-практической конференции «Учитель. Ученик. Учебник», 18—19 октября 2018. М., 2019. C. 401—404.
Eskenazi M. An overview of spoken language technology for education // Speech Communication. Pittsburgh, 2009. P. 832—844.
Guskaroska A. ASR as a tool for providing feedback for vowel pronunciation practice. Iowa, 2019.
LUCID Corpus — London UCL Clear speech in interaction. URL: https://valeriehazan.com/wp/index.php/lucid-corpus-london-ucl-clear-speech-in-interaction/ (accessed: 01.10.2023).