47th International Philological Research Conference

Характеристики распределения триграмм морфологически размеченного корпуса древнерусских агиографических текстов как отображение локальной морфосинтаксической дистрибуции

Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2018-03-23
15:10 - 15:30

Ключевые слова, аннотация

корпус агиографических текстов; древнерусский язык; морфологическая разметка; прецедентная совокупность; тегсет; триграмма

Тезисы

В рамках Санкт-Петербургского корпуса агиографических текстов (СКАТ), созданного и поддерживаемого сотрудниками и студентами кафедры математической лингвистики СПбГУ,  подготовлен подкорпус морфологически аннотированных текстов. Учитывая  необходимость создания системы автоматизированной разметки всех текстов,  исследована локальная морфосинтаксическая дистрибуция текстов подкорпуса. В докладе рассматривается варьирование размерности морфологического  тегсета в аспекте статистической репрезентативности граммем в  размеченной совокупности. На базе тегсетов оптимального размера исчислены наборы триграмм – троек  линейно следующих друг за другом морфологических характеристик словоформ  с учетом пунктуационных знаков и текстовых границ. Обсуждаются параметры распределения триграмм, приводятся параметры  сравнения древнерусского набора с аналогичными структурами в  сбалансированном корпусе современных русских текстов.