Корпус диалектных текстов в Национальном корпусе русского языка: подготовка материалов
Ирина Борисовна Качинская
Докладчик
младший научный сотрудник
Московский государственный университет им. М. В. Ломоносова
Московский государственный университет им. М. В. Ломоносова
129
2018-03-21
16:00 -
16:30
Ключевые слова, аннотация
корпусная лингвистика, русская
диалектология, обработка текстов в корпусе
Тезисы
Корпус Диалектных текстов (http://ruscorpora.ru/search-dialect.html)
входит в состав НКРЯ с 2005 г. За это время полностью сменилась команда, а
также концепция подкорпуса, принципы и способы разметки диалектных текстов. В
докладе и сопровождающей его презентации будут показаны этапы работы с
образцами диалектных текстов, записанных в полевых условиях. В специально
созданной программе «Рабочее место диалектолога» осуществляется грамматическая
разметка слов с учетом их диалектных особенностей, а также метаразметка,
включающая «паспорт» записи, фонетические особенности, жанр, тематику и
семантику текста. Работа над Диалектным подкорпусом продолжается при поддержке
гранта РФФИ № 18-012-00557А «Пополнение Корпуса диалектых текстов Национального
корпуса русского языка».
Поданный диалектологами текст сохраняется в первоначальном
виде либо в виде, максимально близком к первоначальному — ТЕКСТ-1. Наряду с
первоначальном текстом предполагается подавать т.н. ТЕКСТ-2 — текст с
унифицированной транскрипцией и сохранением ударений. Для удобства работы
грамматического анализатора на основе ТЕКСТА-2 создается ТЕКСТ-3 — орфографический
«подстрочник», по которому осуществляется предварительная автоматическая
грамматическая разметка. «Рабочее место» предусматривает возможность вводить
специальные пометы, указывающие на диалектные грамматические особенности
каждого слова.
Работа по сбору текстов ведется во всех регионах России и
русского зарубежья, мы приглашаем всех держателей текстов, авторов хрестоматий
к сотрудничеству.