XXVIII Открытая конференция студентов-филологов в СПбГУ

Векторное представление звуков русского языка с использованием HuBERT

Анастасия Денисовна Ананьева
Докладчик
магистрант 1 курса
Национальный исследовательский университет ИТМО

Ключевые слова, аннотация

В рамках настоящего доклада рассматривается применение модели на основе HuBERT для представления звуков русского языка в виде эмбеддингов. Извлеченные векторные представления анализируются по косинусному расстоянию, выявляется сходство между группами звуков. Отмечены особенности представления палатализованных согласных, связанные с языком обучения модели. Исследование показывает, что эмбеддинги отражают фонетические закономерности, но имеют ограничения при различении мягкости.

Тезисы

Ключевые слова: звуковые единицы; HubertSoft; эмбеддинг

В настоящем докладе рассматривается подход к выделению единиц из потока речи с помощью применения нейросетевых методов на основе архитектуры HuBERT. Процесс обучения таких моделей похож на обучение моделей для текстовой модальности по типу BERT, но в качестве единиц используются так называемые «hidden units». Исследование проводилось на данных корпуса CORPES (обозначения звуков взяты из него же) [
Skrelin P. et al., 2010], а в качестве архитектуры был использован HubertSoft [Van Niekerk et al., 2022]. Из входного сигнала извлекаются эмбеддинги  для каждых 20 мс, а затем усредняются внутри границ одного звука. Для четырех дикторов было выбрано по 200 реализаций одного и того же звука, после чего для каждого из них эмбеддинг усреднялся. Сравнение полученных векторных представлений производилось путём вычисления косинусного расстояния. Таким образом удалось установить, что модель способна выделять группы согласных по способу образования — звонкие смычные (b, d, g) и глухие смычные (p, t, k) имеют наибольшее косинусное сходство. Заднеязычный щелевой h оказывается близок к смычным k и g, того же места образования. Сонант j ближе всего к гласным i0 (0,89) и e0 (0,67), а l к гласной o0 (0,65). Носовые m и n также находятся близко друг к другу в векторном пространстве (0,85). Ближайшим звуком к твердому r оказывается l, но косинусная метрика между ними составляет лишь 0,35, в то время как их мягкие пары r’ и l’ оказываются близки на 0,48. Такая разница обусловлена особенностями произнесения мягкого r’. Глухие щелевые звуки близки к своим звонким парам (s и z на 0,53, а sh и zh на 0,88). Аффриката c находится рядом с щелевым s того же места образования (0,68), и с мягким смычным t’ (0,56). Губные щелевые v и v’ близки к парным по глухости f (0,47) и f’ (0,5), интересно, что твердый губной v оказывается близок к гласной u на 0,45, что отражает особенности реализации — в русском языке он приобретает черты полугласной, что нельзя сказать о мягкой паре (v’ близок к u на 0,22). Одной из проблем векторного представления системы русского языка является наличие палатализации. Языком обучения для изначальной архитектуры был английский, в котором подобное противопоставление отсутствует, что отражается в неумении модели разделять твердые и мягкие согласные, их схожесть достигает 0,97 у p и p’, и столько же у z и z’. Наименее похожей парой мягкий-твёрдый являются l и l’ (0,65), что может быть обусловлено наличием в английском языке светлого и темного варианта. Таким образом, можно говорить о том, что модель позволяет описать звуковую систему русского языка, отражая зависимости между звуками одного места и способа образования. Более того, она улавливает неочевидные особенности реализации согласных, таких как t’, v и r’. Тем не менее, модель не чувствительна к палатализации.

Литература:
Skrelin P. et al. CORPRES: corpus of Russian professionally read speech // Proceedings of the 13th International Conference on Text, Speech and Dialogue (TSD 2010). Brno, Czech Republic, September 6—10, 2010. Springer, 2010. P. 392—399.
Van Niekerk B. et al. A comparison of discrete and soft speech units for improved voice conversion // Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022. P. 6562—6566.