44th International Philological Research Conference

Автоматическая идентификация ударных и безударных гласных в речевом сигнале

Александр Владимирович Шипило
Докладчик
старший лаборант
Санкт-Петербургский государственный университет

157
2015-03-12
15:20 - 15:50

Ключевые слова, аннотация

Основным коррелятом словесного ударения в русском языке является длительность. Однако, как свидетельствуют исследования, проведенные на материале больших речевых корпусов, на основании признака длительности далеко не всегда однозначно возможно классифицировать гласные в потоке речи на ударные или безударные. В настоящем докладе представлены результаты исследования формальных признаков ударения, а также результаты работы построенной на их основе программы автоматической идентификации ударности гласных.

Тезисы

В последнее двадцатилетие в связи с появлением речевых корпусов фонетисты получили возможность проводить исследования на больших по объему данных, проверять верность традиционных сведений о языке. Как известно, основным коррелятом словесного ударения в русском является длительность [Златоустова Л.В., 1953]. Однако, как свидетельствуют исследования, проведенные на материале больших речевых корпусов, на основании признака длительности далеко не всегда однозначно возможно классифицировать гласные в потоке речи на ударные или безударные. Материалом для исследования послужили речевой корпус CORPRES, содержащий аудиозаписи речи и соответствующие им файлы-дескрипторы. В качестве входных данных для работы программы автоматической идентификации ударных гласных послужили:
  • аудиофайлы;
  • информация о границах пауз;
  • информация о границах звуков речи.
Также использовалась информация о том, является ли конкретный отрезок гласным или согласным. При этом данные об интерпретации звука речи не учитывались. На выходе программа порождает вероятностный прогноз относительно того, какие звуки являются ударными или безударными гласными. Прогноз делается не по отдельным звукам, а по их последовательности от паузы до паузы. Программа реализована на двух языках программирования:
  1. Модуль вычисления акустических признаков сигнала написан на скриптовом языке программы Praat.
  2. Модуль классификации реализован на Python.