Разметка элементов сюжета и цитат в текстах житий корпуса СКАТ
Елена Андреевна Рогозина
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2018-03-21
15:35 -
15:55
Ключевые слова, аннотация
корпус, агиография, жития, XML, разметка, сюжет, цитаты
Тезисы
Санкт-Петербургский корпус агиографических текстов (СКАТ)
содержит электронные версии северорусских житий XV-XVII вв. Тексты
представлены в формате PDF и формате XML. В рамках проекта производится
морфологическая и синтаксическая разметка XML-файлов, а также ведется работа по
разметке дискурсивных компонентов текстов. В частности, благодаря тому, что
жития построены по определенной схеме, удалось выделить основные элементы
сюжета, такие как этапы жизни святого: история его родителей, рождение и
младенчество святого, учение, воздержание, мирская жизнь, уход в монастырь,
жизнь в монастыре, основание и расширение нового монастыря и кончина святого.
Разметка этих компонентов позволяет работать с отдельными подкорпусами текстов
и анализировать фрагменты житий, посвященных одному эпизоду, например,
основанию монастыря. Это упрощает дальнейший анализ, позволяет сопоставлять
тексты и выявлять речевые клише, характерные для описания тех или иных событий,
а также цитаты и заимствования из более ранних житийных текстов. Подобные
заимствования весьма характерны для текстов данного жанра. Возможности XML
позволяют размечать подобные заимствования в текстах, независимо от объема
цитируемого фрагмента, указывать источник цитирования и предоставлять ссылку на
файл источника внутри корпуса.