44th International Philological Research Conference

Организация данных в звуковом корпусе, предназначенном для многоуровневого социолингвистического анализа речи

Татьяна Юрьевна Шерстинова
Докладчик
доцент
НИУ ВШЭ СПб

195
2015-03-13
17:00 - 17:30

Ключевые слова, аннотация

В докладе описаны принципы организации данных в звуковом корпусе русского языка повседневного общения, разработанные для проведения многомерного социолингвистического анализа современной русской речи. Представлены основные модули корпуса, структура и состав информационной базы данных, используемые средства экспорта-импорта между разными модулями системы.

Тезисы

1. Необходимость проведения социолингвистического анализа данных диктует свои требования к организации материала речевого корпуса, на базе которого происходит исследование. Прежде всего, обязательным становится введение дополнительных параметров описания аудиоматериала: подробных социолингвистических характеристик говорящих (возраст, пол, место рождения, уровень образования и др.), а также информации, отражающей социальную роль говорящего в каждой конкретной речевой ситуации и социальный статус коммуникантов (например, общение друзей, коммуникация внутри семьи, профессиональные разговоры на работе и др.).
2. Особенностью проекта, разрабатываемого в настоящее время на филологическом факультете СПбГУ, является попытка анализа речевого материала разных социальных групп на нескольких лингвистических уровнях: фонетическом, лексическом, морфологическом,  синтаксическом. Тем самым выдвигается задача не только аннотирования данных на соответствующих уровнях, но и организации полученной в результате такого аннотирования лингвистической информации в единую информационную систему.
3. В докладе описаны принципы организации данных в звуковом корпусе русского языка повседневного общения, разработанные для проведения многоуровневого социолингвистического анализа современной русской речи. Речевой материал формируется на базе звукозаписей корпуса, известного под названием «Один речевой день», который для проведения социолингвистического анализа речи был существенно расширен. В докладе представлены основные модули корпуса, структура и состав информационной базы данных, используемые средства экспорта-импорта между разными модулями системы.
Работа выполнена при поддержке гранта РНФ № 14-18-02070 «Русский язык повседневного общения: особенности функционирования в разных социальных группах».