Аннотированный корпус спонтанной русской речи CoRuSS

Татьяна Васильевна Качковская

Докладчик

доцент
Санкт-Петербургский государственный университет

157
2016-03-16

14:20 - 14:40

Ключевые слова, аннотация

В данной работе представлено описание нового аннотированного корпуса спонтанной русской речи CoRuSS, включающего студийные записи спонтанных диалогов с многоуровневой фонетической, орфографической и просодической аннотацией. Объем корпуса составляет 30 часов, аннотированного материала — 14 часов; количество дикторов — 60. Аннотация представляет собой орфографическую расшифровку речи дикторов с подробной просодической разметкой, выполненные вручную, с указанием речевых сбоев и неречевых явлений, а также содержит уровень фонетической транскрипции, сгенерированный автоматически с опорой на текст.

Тезисы

Аннотированный корпус спонтанной речи CoRuSS (Corpus of Russian Spontaneous Speech), созданный на кафедре фонетики и методики преподавания иностранных языков СПбГУ в 2014–2015 гг., составляют студийные записи спонтанных диалогов. В качестве дикторов были выбраны носители русского языка, в настоящее время проживающие на территории РФ и владеющие русским языком с рождения, из трех возрастных групп: 16–30, 31–45, 46–77, — по 10 мужчин и 10 женщин в каждой группе. Для записи были использованы индивидуальные микрофонные гарнитуры; в звукозаписывающей студии дикторы располагались лицом к лицу на расстоянии 1–1,5 метра друг от друга, чтобы минимизировать попадание звукового сигнала от одного диктора в микрофонный канал другого. Для одновременной записи речи обоих дикторов дополнительно использовался двунаправленный микрофон.
На всем речевом сигнале выделены фрагменты с техническим браком — участки с перегрузками или, наоборот, слишком низким уровнем записи. Для каждого диктора специально отобранные 10–15 минут речи содержат:

орфографическую расшифровку, выполненную вручную, с указанием главного и побочного словесного ударения, хезитаций, затяжек, фальстартов и неречевых явлений (кашель, смех и т. д.), и подробной просодической информации;
фонетическую транскрипцию, полученную с помощью автоматического транскриптора на основе орфографической расшифровки.

На уровне орфографической расшифровки указана следующая просодическая информация: границы синтагм, место интонационного центра, тип мелодического движения в интонационном центре, дополнительная просодическая выделенность. Тип мелодического движения определялся на основании перцептивной и акустической информации и указывался по системе мелодических типов, предложенной Н. Б. Вольской (N. B. Volskaya and P. A. Skrelin, «Prosodic model for Russian», in Proceedings of Nordic Prosody X. Peter Lager, 2009, pp. 249–260). Данная система является расширением системы интонационных конструкций Е. А. Брызгуновой и содержит 13 основных мелодических типов, в каждом из которых выделяется до 4 подтипов, что позволяет учитывать междикторскую вариативность.
Отдельный уровень аннотации содержит информацию о расставленных вручную границах пауз хезитации и неречевых явлений.
Дополнительно в корпус были включены студийные записи чтения дикторами фонетически представительного текста (438 слов) и короткие монологи (0,5–3 мин.) с рассказом о себе.
Представленный корпус может использоваться для исследования широкого круга явлений, наблюдаемых в спонтанной речи, и для решения задач, связанных с автоматической обработкой речи. Помимо аннотированного материала, корпус включает полные записи диалогов, которые могут быть использованы при исследовании явлений диалогической речи.

XLV Международная филологическая научная конференция

Аннотированный корпус спонтанной русской речи CoRuSS

Ключевые слова, аннотация

Тезисы