Санкт-Петербургский корпус агиографических текстов (СКАТ): морфологическая разметка, разметка и анализ элементов содержания
Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Елена Андреевна Рогозина
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2023-03-15
16:50 -
17:10
Ключевые слова, аннотация
Корпус; жития; морфология; элементы содержания.
СКАТ — электронный корпус агиографических церковнославянских текстов XV–XVII вв., созданный на кафедре математической лингвистики СПбГУ. В рамках проекта в житийных текстах вводится морфологическая разметка и разметка содержательных элементов: смысловых разделов, библейских, святоотеческих и литургических цитат, а также повторяющихся фрагментов текстов. Анализ размеченных элементов позволяет выявлять закономерности в их использовании.
СКАТ — электронный корпус агиографических церковнославянских текстов XV–XVII вв., созданный на кафедре математической лингвистики СПбГУ. В рамках проекта в житийных текстах вводится морфологическая разметка и разметка содержательных элементов: смысловых разделов, библейских, святоотеческих и литургических цитат, а также повторяющихся фрагментов текстов. Анализ размеченных элементов позволяет выявлять закономерности в их использовании.
Тезисы
СКАТ — электронный корпус
агиографических церковнославянских текстов XV–XVII вв., созданный на
кафедре математической лингвистики СПбГУ. В корпус входят русские житийные
тексты XV–XVII веков общим объемом порядка 185 000 словоупотреблений. В рамках проекта
ведется работа по структурированию текста в формате XML.
Для текстов корпуса вводится
морфологическая разметка с указанием не только частей речи, но и типа
склонения, рода, падежа и числа для существительных и прилагательных; времени,
спряжения, лица, числа для глагольных форм и так далее. На данный момент
морфологическая разметка введена в 11 текстах. Ведется работа и над
синтаксической разметкой [Алексеева, Азарова 2013].
Также вводится разметка
содержательных элементов. В первую очередь, для текстов житий вводится разметка
основных элементов сюжета. Структура житий во многом схожа, поскольку тексты
строились по определенному канону и при создании новых текстов авторы ориентировались
на уже существующие образцы, и многие жития были построены по установленной
схеме [Кадлубовский 1902]. Тексты, входящие в корпус СКАТ, представляют собой
жития преподобных, и можно было рассчитывать на наличие общих черт в их
композиции, ведь «тип подвига святого… определяет особенности композиционной
структуры и поэтики его жития» [Руди 2006: 431]. Анализ входящих в корпус
текстов позволил выявить общую для них сюжетную схему. Проводится разметка
сюжетных элементов и создание своего рода оглавлений для размеченных текстов,
что дает возможность в дальнейшем работать с отдельными разделами и сравнивать
одинаковые элементы сюжета в разных житиях.
В рамках проекта также
осуществляется поиск и разметка библейских, святоотеческих и литургических
цитат в житийных текстах корпуса. Выделяются три вида цитат: точная цитата,
видоизмененная цитата и аллюзия. Также при разметке различаются три способа
представления цитат в тексте: цитата может вводиться выражением, в котором
содержится указание на источник цитаты, может вводиться общем выражением или
никак не выделяться в тексте. Для всех видов цитат и способов их представления
предусмотрены разные варианты разметки. Это позволяет учитывать особенности
использования цитат и в дальнейшем упростить их поиск в новых текстах.
Сопоставляя эти два вида разметки
элементов содержания, можно отслеживать распределение цитат по текстам и элементам
композиционной структуры, таким образом обнаруживая закономерности в
использовании цитат или выявляя цитаты, характерные для определенных разделов.
Кроме того, вводится разметка
повторяющихся фрагментов текстов. Как уже упоминалось, при написании новых
текстов авторы свободно пользовались текстами предшественников, иногда
адаптируя или сокращая текст, а порой заимствуя целые фрагменты текста [Панченко
2003]. Анализ текстов севернорусских житий в корпусе СКАТ позволяет обнаружить
многочисленные текстовые фрагменты, воспроизводимые разными авторами. Такие
фрагменты размечаются в текстах корпуса, и для каждого повторяющегося фрагмента
дается ссылка на первоисточник. Разметка позволяет постепенно накапливать реестр
таких фрагментов и делает возможным их выделение в других текстах житий.
Для дальнейшей работы с размеченными
файлами используется программное обеспечение с открытым кодом TXM,
разработанное лабораторией IHRIM в Лионе. Эта текстометрическая платформа
позволяет использовать различные инструменты для анализа текстов и выявления
закономерностей. Например, можно определить, для каких содержательных разделов
характерно использование цитат, а в каких разделах цитаты практически не
используются. Также платформа TXM позволяет создавать частотные словари и анализировать
частоту употребления тех или иных словоформ в цитатах и в тексте самого жития. Таким
образом можно определить, насколько лексический состав используемых в житии
цитат отличается от лексического состава основного текста. Еще она полезная
функция платформы TXM — выполнение анализа соответствий. Это многомерный
анализ, который позволяет оценить употребление всех слов во всех разделах
текста и оценить, насколько тексты близки друг к другу по лексическому составу.
Такие сравнения можно проводить как для текстов в целом, так и отдельно для
основного текста и лексического состава цитат.
По мере того, как разметка элементов содержания вводится во все
большем количестве текстов корпуса,
можно дополнительно уточнять сюжетную схему житий, выявлять все новые
особенности житийных текстов, используя возможности текстометрической платформы
TXM, а также находить закономерности в использовании цитат и повторяющихся
фрагментов.
Литература
1. Алексеева Е.Л.,
Азарова И.В. Особенности морфо-синтаксической разметки
древнерусских агиографических текстов. // Труды Международной конференции
«Корпусная лингвистика — 2013». СПб, 2013. С. 157–164.
2. Кадлубовский А.П. Очерки по истории древне-русской литературы житий
святых. Варшава, 1902.
3. Панченко О.В.
Поэтика уподоблений (к вопросу о «типологическом» методе в древнерусской
агиографии, эпидейктике, гимнографии) // ТОДЛР (Труды Отдела древнерусской
литературы). СПб. 2003. Т. 54. С. 491–534.
4. Руди Т.Р. О композиции и топике житий преподобных // ТОДРЛ (Труды Отдела древнерусской литературы). СПб., 2006.
Т. 57. С. 431–500.