Русская часть многоязычного параллельного корпуса фраз с просодической выделенностью
Наталья Александровна Морозова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2017-04-18
13:00 -
13:20
Ключевые слова, аннотация
В докладе говорится о создании многоязычного ресурса, содержащего данные об интонации выделенности в разных языках. Работа опирается на уже созданный речевой корпус
SP2, который содержит фразы с
выделенностью и их аннотацию. На данный момент в корпусе представлены шесть
языков, в числе которых нет русского. Исследование ставит целью создание
материала на русском языке и его аннотацию. Результаты работы позволят выявить
особенности реализации различных типов выделенности в разных языках. Полученные
данные могут быть также полезны для автоматического распознавания выделенных
слов.
Тезисы
На
данный момент существует множество речевых корпусов, описывающих интонацию
разных языков. Эти корпуса включают, по большей части, нейтральную интонацию. Корпус
SP2 Speech Corpus, «Multilingual Database Containing Prosodically Rich Sentences» («База данных,
содержащая предложения с просодической выделенностью на разных языках»)
является одним из немногих ресурсов, позволяющих изучать экспрессивную
интонацию. Данный корпус основан на фразах, в которых одно или несколько слов просодически выделены. Он включает на данный момент записи дикторов 6 языков
(английского, французского, немецкого, сербского, венгерского и македонского).
Русский язык в корпусе пока не представлен.
Таким
образом, целью данной работы является дополнение существующего корпуса
материалом на русском языке.
В
рамках поставленной цели решаются следующие задачи:
1. Запись чтения предложений диктором-носителем русского
языка.
2. Аннотация фраз.
3. Размещение результатов в открытом
доступе.
В
ходе работы предложения, составляющие материал корпуса, были переведены на
русский язык, с сохранением места выделения. Так, получилось 50 предложений,
разделенных на 5 групп:
1. Предложения с выделенностью на одном
слове, занимающем не начальную позицию.
2. Предложения с выделенностью на первом
слове.
3. Фразы, содержащие противопоставление
между двумя элементами, и, соответственно, с выделенностью на обоих этих
элементах.
4. Фразы с контрастом в вопросительных
предложениях.
5. Предложения с выделением не на одном слове,
а на большей части высказывания.
Диктору
были предложены для прочтения 100 предложений: предложения с выделенностью и
эти же предложения с нейтральной интонацией (которые диктор читал парами, то
есть за каждым нейтральным предложением следовало такое же предложение, но с
выделенностью).
Результатом
данной работы является аннотированная, согласно инструкциям корпуса, запись
предложений с выделенностью на русском языке.
Результаты
работы позволят проводить дальнейшие исследования в области интонации
выделенности русского языка. Материал также может быть использован для изучения
и сравнения особенностей реализации выделенности в разных языках и для
исследования различных типов выделенности. Результаты работы могут быть полезны
и в практических целях, в первую очередь для автоматического распознавания
выделенных слов.