Аннотированный корпус спонтанной русской речи CoRuSS
Татьяна Васильевна Качковская
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2016-03-16
14:20 -
14:40
Ключевые слова, аннотация
В данной работе представлено описание нового аннотированного корпуса спонтанной русской речи CoRuSS, включающего студийные записи спонтанных диалогов с многоуровневой фонетической, орфографической и просодической аннотацией. Объем корпуса составляет 30 часов, аннотированного материала — 14 часов; количество дикторов — 60. Аннотация представляет собой орфографическую расшифровку речи дикторов с подробной просодической разметкой, выполненные вручную, с указанием речевых сбоев и неречевых явлений, а также содержит уровень фонетической транскрипции, сгенерированный автоматически с опорой на текст.
Тезисы
Аннотированный корпус спонтанной речи CoRuSS (Corpus of Russian Spontaneous Speech), созданный на кафедре
фонетики и методики преподавания иностранных языков СПбГУ в 2014–2015 гг.,
составляют студийные записи спонтанных диалогов. В качестве дикторов были
выбраны носители русского языка, в настоящее время проживающие на территории РФ
и владеющие русским языком с рождения, из трех возрастных групп: 16–30, 31–45, 46–77, —
по 10 мужчин и 10 женщин в каждой группе. Для записи были использованы
индивидуальные микрофонные гарнитуры; в звукозаписывающей студии дикторы
располагались лицом к лицу на расстоянии 1–1,5 метра друг от друга, чтобы минимизировать
попадание звукового сигнала от одного диктора в микрофонный канал другого. Для
одновременной записи речи обоих дикторов дополнительно использовался двунаправленный
микрофон.
На всем речевом сигнале выделены фрагменты с техническим браком — участки с перегрузками или, наоборот, слишком низким уровнем записи. Для каждого диктора специально отобранные 10–15 минут речи содержат:
Отдельный уровень аннотации содержит информацию о расставленных вручную границах пауз хезитации и неречевых явлений.
Дополнительно в корпус были включены студийные записи чтения дикторами фонетически представительного текста (438 слов) и короткие монологи (0,5–3 мин.) с рассказом о себе.
Представленный корпус может использоваться для исследования широкого круга явлений, наблюдаемых в спонтанной речи, и для решения задач, связанных с автоматической обработкой речи. Помимо аннотированного материала, корпус включает полные записи диалогов, которые могут быть использованы при исследовании явлений диалогической речи.
На всем речевом сигнале выделены фрагменты с техническим браком — участки с перегрузками или, наоборот, слишком низким уровнем записи. Для каждого диктора специально отобранные 10–15 минут речи содержат:
- орфографическую расшифровку, выполненную вручную, с указанием главного и побочного словесного ударения, хезитаций, затяжек, фальстартов и неречевых явлений (кашель, смех и т. д.), и подробной просодической информации;
- фонетическую транскрипцию, полученную с помощью автоматического транскриптора на основе орфографической расшифровки.
Отдельный уровень аннотации содержит информацию о расставленных вручную границах пауз хезитации и неречевых явлений.
Дополнительно в корпус были включены студийные записи чтения дикторами фонетически представительного текста (438 слов) и короткие монологи (0,5–3 мин.) с рассказом о себе.
Представленный корпус может использоваться для исследования широкого круга явлений, наблюдаемых в спонтанной речи, и для решения задач, связанных с автоматической обработкой речи. Помимо аннотированного материала, корпус включает полные записи диалогов, которые могут быть использованы при исследовании явлений диалогической речи.