45th International Philological Research Conference

Принципы нормализации древнерусских житийных текстов для корпуса СКАТ

Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2016-03-17
14:45 - 15:05

Ключевые слова, аннотация

На кафедре математической лингвистики Санкт-Петербургского государственного университета создан и постоянно пополняется  корпус агиографических текстов (СКАТ), в котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв. Доклад посвящен проблемам нормализации орфографии и лемматизации в словоуказателе к текстам житий.

Тезисы

На кафедре математической лингвистики Санкт-Петербургского государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ), в котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв. В числе наших очередных задач при работе с корпусом стоит проблема лемматизации. Для этого есть очевидный подход: связать древнерусские словоформы с их каноническим представлением в современном русском, однако некоторые древнерусские лексемы не имеют эквивалентов в современном словаре. Для немецкого языка была предложена трехступенчатая схема нормализации:
1) вначале просматривается список соответствий древних и  современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]
Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].

Список литературы:
[1] Bollmann, Marcel. 2013. POS Tagging for Historical Texts with Sparse Training Data. In: Proceedings of the 7th Linguistic Annotation Workshop & Interoperability with Discourse, pages 11–18, Sofia, Bulgaria, August 8–9, 2013.
[2] Уфлянд Е. Г., Алек­сее­ва Е. Л. Сокращение вариатив­ности написания сло­воформ в служебных компонентах агиогра­фического корпуса СКАТ // Труды международ­ной конференции «Корпусная лингви­стика — 2008». СПб, 2008. С. 376–378.