47th International Philological Research Conference

Разметка элементов сюжета и цитат в текстах житий корпуса СКАТ

Елена Андреевна Рогозина
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет

193
2018-03-21
15:35 - 15:55

Ключевые слова, аннотация

корпус, агиография, жития, XML, разметка, сюжет, цитаты

Тезисы

Санкт-Петербургский корпус агиографических текстов (СКАТ) содержит электронные версии северорусских житий XV-XVII вв. Тексты представлены в формате PDF и формате XML. В рамках проекта производится морфологическая и синтаксическая разметка XML-файлов, а также ведется работа по разметке дискурсивных компонентов текстов. В частности, благодаря тому, что жития построены по определенной схеме, удалось выделить основные элементы сюжета, такие как этапы жизни святого: история его родителей, рождение и младенчество святого, учение, воздержание, мирская жизнь, уход в монастырь, жизнь в монастыре, основание и расширение нового монастыря и кончина святого. Разметка этих компонентов позволяет работать с отдельными подкорпусами текстов и анализировать фрагменты житий, посвященных одному эпизоду, например, основанию монастыря. Это упрощает дальнейший анализ, позволяет сопоставлять тексты и выявлять речевые клише, характерные для описания тех или иных событий, а также цитаты и заимствования из более ранних житийных текстов. Подобные заимствования весьма характерны для текстов данного жанра. Возможности XML позволяют размечать подобные заимствования в текстах, независимо от объема цитируемого фрагмента, указывать источник цитирования и предоставлять ссылку на файл источника внутри корпуса.