Точное автоматическое сопоставление фонетических транскрипций
Даниил Александрович Кочаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2015-03-11
15:20 -
15:50
Ключевые слова, аннотация
В этом докладе представлена автоматическая процедура сопоставления фонетических
транскрипций речевых сообщений на русском языке. Процедура основана на стандартно
применяемом для этой задачи алгоритме Левенштейна. Модификация алгоритма
Левенштейна заключается в дифференциации стоимостей замен, удалений и вставок
фонем в зависимости от частотности этих явлений в слитной русской речи. Эффективность предложенного
подхода была экспериментально доказана на большом речевом материале. Он делает
в почти четыре раза меньше ошибок, чем базовый алгоритм Левенштейна.
Тезисы
Цель работы, описанной в этом докладе, состоит в эффективном сопоставлении двух последовательностей фонетических символов (фонетических транскрипций), которые описывают один и тот же речевой сигнал.
Есть два основных направления научных исследований, где требуется идеальное сопоставление фонетических транскрипций. Во-первых, это исследования того, как разные люди читают или произносят один и тот же текст, например, диалектические [1] и социолингвистические [2] исследования. Во-вторых, это сравнение транскрипций, порожденных различными транскрипторами, например, в системах автоматического распознавания речи [3] или при создании речевых корпусов [4]. Стандартно применяемое на данный момент решение на основе алгоритма Левенштейна работает неидеально. Оценка его эффективности на основе корпуса русской речи CORPRES [4] показала, что оно делает 1,1% ошибок [5], что приводит к более чем 10 000 ошибок на речевом материале объемом 25 часов. Например, рассмотрим реализацию слова «бросает», которое должно произноситься как /b r a s A j i t/, а было произнесено как /b y r s A i t/. Сопоставление этих двух транскрипций слова на основе алгоритма Левенштейна дает такой результат: «b:b r:y a:r s:s A:A j:- i:i t:t», где знак «-» показывает пропуск символа «j» в первой транскрипции. Такое ошибочное сопоставление может привести нас к ложным выводам о том, что в слитной русской речи /r/ реализуется, как /y/, а /a/ реализуется, как /r/. Если же мы учтем простейшее фонетическое правило о том, что гласные скорее меняются в речи на гласные, а согласные на согласные, то получим правильный результат: «b:b -:y r:r a:- s:s A:A j:- i:i t:t». Анализ этого сопоставления приводит нас к очевидным выводам о том, что в слитной речи могут выпадать безударные гласные и том, что между смычным и сонантом могут быть гласные вставки.
Для повышения качества процедуры сопоставления транскрипций были использованы результаты исследований о частотности в слитной русской речи таких фонетических явлений, как замена одного звука другим, выпадение звука или наоборот его вставка. Модификация алгоритма Левенштейна заключается в дифференциации стоимостей замен, удалений и вставок фонем в зависимости от частотности этих явлений в слитной речи.
Введение одного простого правила, что замена гласного на гласный и согласного на согласный стоит меньше, чем замена гласного на согласный, уменьшает количество ошибок почти на треть, до 0,78%.
Введение различных фонетических классов звуков, внутри которых вероятны замены звуков друг на друга, что уменьшает стоимость их замен, а также уменьшение стоимости выпадения безударных гласных и /j/ и стоимости вставки безударных гласных [5], позволяет дополнительно уменьшить количество ошибок ещё почти вдвое, до 0,27%.
Литература:
1. Heeringa, W. J.: Measuring Dialect Pronunciation Differences Using Levenshtein Distance. PhD Thesis, Rijksuniv., Groningen (2004)
1. Heeringa, W. J.: Measuring Dialect Pronunciation Differences Using Levenshtein Distance. PhD Thesis, Rijksuniv., Groningen (2004)
2. Valls, E., Wieling, M., Nerbonne, J.: Linguistic Advergence and Divergence in Northwestern Catalan: A Dialectometric Investigation of Dialect Leveling and Border Effects. LLC: Journal of Digital Scholarship in the Humanities, 28(1), pp. 119-146 (2013)
3. Alvarez, A., Arzelus, H., Ruiz, P.: Long Audio Alignment for Automatic Subtitling Using Different Phone-Relatedness Measures. In: 2014 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), pp. 6321-6325. Florence (2014)
4. Skrelin, P., Volskaya, N., Kocharov, D., Evgrafova, K., Glotova, O., Evdokimova, V.: CORPRES - Corpus of Russian Professionally Read Speech. In: Sojka, P., Horak, A., Kopecek, I., Pala, K. (eds.) 13th International Conference Text, Speech and Dialogue, TSD 2010. LNCS, vol. 8773, pp. 392-399. Springer International Publishing, Berlin (2010)
5. Kocharov D., Automatic Alignment of Phonetic Transcriptions for Russian // Proc. of 16th International Conference SPECOM 2014, LNCS, vol. 6231, pp 123-128. Springer International Publishing, Berlin (2014).