XXII Открытая конференция студентов-филологов в СПбГУ

К вопросу выделения акустических показателей, обеспечивающих распознавание гендера говорящего

Павел Андреевич Холявин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Наталья Леонидовна Крякина
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

ауд. 157
2019-04-19
16:00 - 16:20

Ключевые слова, аннотация

Определение гендера говорящего представляется проблемой, актуальной для ряда направлений научной и профессиональной деятельности. Считается, что среди акустических показателей наибольшее значение для решения этой задачи имеет ЧОТ (частота основного тона). Для проверки этой гипотезы мы проанализировали успешность распознавания ряда аудиостимулов, предъявленных группе аудиторов и системе АРР (системе автоматического распознавания речи). Полученные результаты дают основание предполагать, что ЧОТ является важным, но не единственным коррелятом успешности распознавания гендера по речи.

Тезисы

Определение гендера говорящего представляется проблемой, актуальной для ряда направлений научной и профессиональной деятельности. Основной задачей данного исследования мы считаем определение набора акустических показателей, обеспечивающих успешное решение вышеописанной проблемы.
Для решения этого вопроса было выполнено исследование на материале записей 7 дикторов (5 мужчин и 2 женщин). В ходе данного этапа работы проверялась известная гипотеза о роли, выполняемой частотой основного тона (ЧОТ) в ходе распознавания речи. Проверка осуществлялась последовательно двумя способами: с помощью перцептивного эксперимента и посредством предъявления записей системе автоматического распознавания речи (АРР), основанной на гендерно-специфических акустических моделях.
Всех дикторов, принявших участие в подготовке к эксперименту, просили прочитать сложный текст, состоящий из двух фонетически представительных текстов и небольшой вводной части. Каждая запись проходила в два этапа: сначала диктор читал текст в комфортном для себя режиме, затем пытался имитировать речь человека противоположного пола.
В задачу аудиторов, принимавших участие в перцептивном эксперименте, входила оценка небольших (до 5 с) фрагментов сделанных записей: они должны были на слух определить пол говорящего. Для получения равного количества записей участников каждого пола была проведена предварительная балансировка данных.
По итогам этих проверок в изучаемой выборке было выделено несколько стимулов, содержащих равно успешные имитации речи людей противоположного пола. Так, записи трёх дикторов-мужчин, при имитации осуществивших перенос минимальных и максимальных значений ЧОТ в характерную для женских голосов область (120—480 Гц), были признаны наиболее успешными как аудиторами, так по результатам проверки системой АРР. В свою очередь, распознавание тех записей, показатели ЧОТ для которых не вошли в необходимый диапазон, оказалось более затруднительным. Тем не менее, стоит заметить, что с более низкой по сравнению с ожиданиями успешностью были распознаны и некоторые записи дикторов-женщин, перенёсших показатели ЧОТ в область, характерную для мужских голосов (50—250 Гц).
Это позволяет предположить, что вероятность определения гендера говорящего зависит не только от средних показателей частот, реализованных им в своей речи. Анализ результатов обеих проверок подтвердил существование нескольких ключевых закономерностей. Во-первых, успешность распознавания гендера говорящего коррелирует с используемым диапазоном ЧОТ, но не определяется исключительно этим показателем. Во-вторых, на достоверность подобных имитаций действительно может влиять ряд акустических параметров, однако проверка этого предположения потребует организации дополнительной серии экспериментов.