XXIII Открытая конференция студентов-филологов в СПбГУ

Автоматическое создание транскрипций при помощи взвешенных конечных преобразователей

Павел Андреевич Холявин
Speaker
магистрант 1 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Целью данного исследования стало создание автоматической системы транскрипции для русского языка, основанной на взвешенных конечных преобразователях (weighted finite-state transducers, FST). Обучающим материалом послужили орфографическая расшифровка и идеальные фонемные транскрипции из корпуса профессионального чтения CORPRES. Результаты сравнения с транскрипцией, построенной по правилам, показали, что при обучении на всем доступном материале (211 391 слово) ошибка составляет 4%, при использовании 500 слов ошибка составила 11%.

Summary

Целью настоящей работы является создание системы автоматической транскрипции для русского языка с использованием взвешенных конечных преобразователей (конечных автоматов), а также оценка качества работы такой системы в сравнении с транскриптором, основанным на правилах. Обучение системы проводилось при помощи пакета G2P (grapheme-to-phoneme) Phonetisaurus, основанного на инструментарии OpenFST. В качестве обучающего словаря для системы были взяты идеальные транскрипции с выделением ударения из корпуса профессиональной русской речи CORPRES, записанного на кафедре фонетики СПбГУ.
В ходе эксперимента были созданы модели, основанные на материале всего корпуса (211 391 слово), а также на фрагментах меньшего объёма, начиная от 10 слов. В качестве тестового фрагмента был выбран отрывок из рассказа Л. Н. Андреева «Баргамот и Гараська» с расставленными ударениями, что было необходимо для корректной работы транскриптора, основанного на правилах. Затем с помощью каждой из обученных моделей, а также с помощью транскриптора были составлены транскрипции тестового фрагмента. Эта последняя транскрипция была взята за эталон, и все остальные транскрипции были сравнены с ней при помощи параметра Phoneme Error Rate (PER), который вычисляется как расстояние Левенштейна между двумя транскрипциями, делённое на длину эталона.
Сравнение показало, что модель, обученная на полном корпусе, даёт PER, равный 4,16 %. Модель, обученная всего на 10 словах, дала ошибку в 84,43%. Обучение на 50 словах понизило её до 24,01%, на 100 словах — до 19,81%, на 500 словах — 11,50%, на 1 000 — 9,68%, на 15 000 — 7,56%, и далее наблюдалось плавное снижение. Таким образом, зависимость качества транскрипции от количества обучающего материала носит нелинейный характер.
Анализ ошибок, совершённых системой, показал, что большая их часть связана с неправильным определением ударения в слове и неправильным отражением оглушения или озвончения согласных на стыках слов. Можно предположить, что такие ошибки будут несущественны при составлении произносительных словарей для систем автоматического распознавания речи, если информация об ударениях будет доступна заранее. Кроме того, вероятно, ошибки второго типа будут встречаться реже, если организовывать обучающий материал не пословно, как это было сделано, а большими фрагментами.