Характеристики распределения триграмм морфологически размеченного корпуса древнерусских агиографических текстов как отображение локальной морфосинтаксической дистрибуции
Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2018-03-23
15:10 -
15:30
Ключевые слова, аннотация
корпус агиографических текстов; древнерусский язык; морфологическая разметка; прецедентная совокупность; тегсет; триграмма
Тезисы
В
рамках Санкт-Петербургского корпуса агиографических текстов (СКАТ), созданного
и поддерживаемого сотрудниками и студентами кафедры математической лингвистики
СПбГУ, подготовлен подкорпус
морфологически аннотированных текстов. Учитывая необходимость создания системы
автоматизированной разметки всех текстов, исследована локальная морфосинтаксическая
дистрибуция текстов подкорпуса. В докладе рассматривается варьирование
размерности морфологического тегсета в
аспекте статистической репрезентативности граммем в размеченной совокупности. На базе тегсетов
оптимального размера исчислены наборы триграмм – троек линейно следующих друг за другом
морфологических характеристик словоформ с учетом пунктуационных знаков и текстовых
границ. Обсуждаются параметры распределения триграмм, приводятся параметры сравнения древнерусского набора с аналогичными
структурами в сбалансированном корпусе
современных русских текстов.