Автоматический анализ мелодического контура
Павел Андреевич Холявин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2023-03-16
16:50 -
17:10
Ключевые слова, аннотация
компьютерная фонетика; интонация; мелодика;
просодические характеристики
Тезисы
Известно, что наличие интонационной системы является языковой универсалией; иными словами, в каждом языке есть интонация. Однако в языках существует целый спектр разнообразных просодических средств, универсальность или специфичность которых ещё предстоит установить. Полезным инструментом для исследований в этой области стал бы способ автоматического анализа мелодического контура фразы, который позволил бы сравнивать данные как одного языка, так и разных. В данном докладе предлагается такой способ, основанный на автоматической синхронизации границ звуков в потоке речи со структурными компонентами мелодического контура (определение тайминга). В качестве основной единицы, к которой привязываются изменения частоты основного тона, в предложенном методе выступает слог как минимальная произносительная единица.
Принцип работы программы заключается в следующем:
1. На первом этапе происходит автоматическое определение значений частоты основного тона с помощью программы REAPER [Talkin, 2015]. Полученные абсолютные значения в герцах переводятся в относительные единицы — полутона. Эти единицы являются перцептивно значимыми, поэтому данное преобразование позволит, во-первых, сравнивать мелодический контур в высказываниях, порождённых дикторами с разной средней частотой (в частности, дикторов разного пола), а во-вторых, более адекватно оценивать интервалы мелодического изменения.
2. На втором этапе происходит автоматическая расстановка границ между отдельными звуками в сигнале. Для этого необходимо выполнить фонетическую транскрипцию исследуемых речевых фрагментов. Такая транскрипция может быть как выполнена вручную, так и получена с помощью алгоритмов автоматической транскрипции (основанных на правилах либо на методах машинного обучения). Для собственно определения границ между звуками используется инструментарий для автоматического распознавания речи Kaldi [Povey и др., 2011]. В ходе работы этой программы на входных звуковых данных обучается акустическая модель (в случае недостаточного количества входных данных она может быть подкреплена речевыми корпусами соответствующего языка). Сигнал делится на короткие пересекающиеся фрагменты, каждый из которых оценивается как принадлежащий тому или иному звуку с помощью акустической модели. Затем результат проходит постобработку с использованием данных об интенсивности сигнала и наличия либо отсутствия голоса (эта информация получается на первом этапе вместе с данными о значениях частоты основного тона).
3. На третьем этапе полученные границы используются для определения границ между открытыми слогами (при необходимости могут использоваться и другие правила слогоделения).
4. На четвёртом этапе мелодический контур на каждом слоге сглаживается с целью устранения ошибок определения частоты основного тона и перцептивно не значимых микропросодических изменений и выбросов. В зависимости от сложности выявленного движения, оно может быть представлено как одна ключевая точка (если значимых изменений частоты основного тона в рамках текущего слога не выявлено) либо оценено линейным или полиномиальным приближением.
Принцип выделения ключевых точек схож с принципом, лежащим в основе алгоритма MOMEL [Hirst, 2011], однако можно перечислить ряд преимуществ предложенного метода:
1. Эксплицитная привязка стилизованного контура к отдельным слогам. Это позволяет отдельно исследовать разные структурные составляющие интонационного контура: зону интонационного центра (которая включает в себя собственно слог, несущий синтагматическое ударение, а также предударный и заударный слоги), начало и конец синтагмы, интонационную периферию.
2. Возможность рассматривать форму мелодического движения внутри одного слога. Это позволяет исследовать явления, связанные с таймингом (в частности, положение интонационных пиков).
3. Использование данных фонетической транскрипции и другой лингвистической разметки. Это позволяет учитывать связь формы мелодического движения на слоге с его сегментным составом, а также ударность или безударность слога. Также могут быть исследованы особенности слогов, находящихся в зоне действия логического ударения, акцентного выделения.
Метод был апробирован с использованием корпуса русской устной речи CORPRES. Было показано, что метод может эффективно использоваться для различения основных интонационных типов русского языка.
В дальнейшем метод предлагается использовать для поиска универсальных и специфических фонетических характеристик коммуникативных типов высказываний в разных языках.
Другой возможной областью применения метода является преподавание интонации иностранных языков. В частности, результаты анализа мелодической кривой могут быть визуализированы в виде графика, аналогичного предложенным в пособии Дж.Д. О’Коннора и Г.Ф. Арнольда «Intonation of Colloquial English» [O’Connor, Arnold, 1973] и ряде других, что позволит обучающимся сравнивать свои реализации с эталонными.
Литература:
1. Hirst D. The analysis by synthesis of speech melody: from data to models // Journal of Speech Sciences. 2011. Т. 1. № 1. С. 55–83.
2. O’Connor J.D., Arnold G. F. Intonation of colloquial English. London: Longman, 1973.
3. Povey D. и др. The Kaldi speech recognition toolkit. IEEE Signal Processing Society, 2011.
4. Talkin D. REAPER: Robust Epoch And Pitch EstimatoR [Электронный ресурс]. URL: https://github.com/google/REAPER (дата обращения: 21.12.2019).
Принцип работы программы заключается в следующем:
1. На первом этапе происходит автоматическое определение значений частоты основного тона с помощью программы REAPER [Talkin, 2015]. Полученные абсолютные значения в герцах переводятся в относительные единицы — полутона. Эти единицы являются перцептивно значимыми, поэтому данное преобразование позволит, во-первых, сравнивать мелодический контур в высказываниях, порождённых дикторами с разной средней частотой (в частности, дикторов разного пола), а во-вторых, более адекватно оценивать интервалы мелодического изменения.
2. На втором этапе происходит автоматическая расстановка границ между отдельными звуками в сигнале. Для этого необходимо выполнить фонетическую транскрипцию исследуемых речевых фрагментов. Такая транскрипция может быть как выполнена вручную, так и получена с помощью алгоритмов автоматической транскрипции (основанных на правилах либо на методах машинного обучения). Для собственно определения границ между звуками используется инструментарий для автоматического распознавания речи Kaldi [Povey и др., 2011]. В ходе работы этой программы на входных звуковых данных обучается акустическая модель (в случае недостаточного количества входных данных она может быть подкреплена речевыми корпусами соответствующего языка). Сигнал делится на короткие пересекающиеся фрагменты, каждый из которых оценивается как принадлежащий тому или иному звуку с помощью акустической модели. Затем результат проходит постобработку с использованием данных об интенсивности сигнала и наличия либо отсутствия голоса (эта информация получается на первом этапе вместе с данными о значениях частоты основного тона).
3. На третьем этапе полученные границы используются для определения границ между открытыми слогами (при необходимости могут использоваться и другие правила слогоделения).
4. На четвёртом этапе мелодический контур на каждом слоге сглаживается с целью устранения ошибок определения частоты основного тона и перцептивно не значимых микропросодических изменений и выбросов. В зависимости от сложности выявленного движения, оно может быть представлено как одна ключевая точка (если значимых изменений частоты основного тона в рамках текущего слога не выявлено) либо оценено линейным или полиномиальным приближением.
Принцип выделения ключевых точек схож с принципом, лежащим в основе алгоритма MOMEL [Hirst, 2011], однако можно перечислить ряд преимуществ предложенного метода:
1. Эксплицитная привязка стилизованного контура к отдельным слогам. Это позволяет отдельно исследовать разные структурные составляющие интонационного контура: зону интонационного центра (которая включает в себя собственно слог, несущий синтагматическое ударение, а также предударный и заударный слоги), начало и конец синтагмы, интонационную периферию.
2. Возможность рассматривать форму мелодического движения внутри одного слога. Это позволяет исследовать явления, связанные с таймингом (в частности, положение интонационных пиков).
3. Использование данных фонетической транскрипции и другой лингвистической разметки. Это позволяет учитывать связь формы мелодического движения на слоге с его сегментным составом, а также ударность или безударность слога. Также могут быть исследованы особенности слогов, находящихся в зоне действия логического ударения, акцентного выделения.
Метод был апробирован с использованием корпуса русской устной речи CORPRES. Было показано, что метод может эффективно использоваться для различения основных интонационных типов русского языка.
В дальнейшем метод предлагается использовать для поиска универсальных и специфических фонетических характеристик коммуникативных типов высказываний в разных языках.
Другой возможной областью применения метода является преподавание интонации иностранных языков. В частности, результаты анализа мелодической кривой могут быть визуализированы в виде графика, аналогичного предложенным в пособии Дж.Д. О’Коннора и Г.Ф. Арнольда «Intonation of Colloquial English» [O’Connor, Arnold, 1973] и ряде других, что позволит обучающимся сравнивать свои реализации с эталонными.
Литература:
1. Hirst D. The analysis by synthesis of speech melody: from data to models // Journal of Speech Sciences. 2011. Т. 1. № 1. С. 55–83.
2. O’Connor J.D., Arnold G. F. Intonation of colloquial English. London: Longman, 1973.
3. Povey D. и др. The Kaldi speech recognition toolkit. IEEE Signal Processing Society, 2011.
4. Talkin D. REAPER: Robust Epoch And Pitch EstimatoR [Электронный ресурс]. URL: https://github.com/google/REAPER (дата обращения: 21.12.2019).