Принципы нормализации древнерусских житийных текстов для корпуса СКАТ

Елена Леонидовна Алексеева

Докладчик

доцент
Санкт-Петербургский государственный университет

Ирина Владимировна Азарова

Докладчик

доцент
Санкт-Петербургский государственный университет

Константин Владимирович Сипунин

Докладчик

специалист
Just AI

193
2016-03-17

14:45 - 15:05

Ключевые слова, аннотация

Тезисы

На кафедре математической лингвистики Санкт-Петербургского государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ), в котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв. В числе наших очередных задач при работе с корпусом стоит проблема лемматизации. Для этого есть очевидный подход: связать древнерусские словоформы с их каноническим представлением в современном русском, однако некоторые древнерусские лексемы не имеют эквивалентов в современном словаре. Для немецкого языка была предложена трехступенчатая схема нормализации:
1) вначале просматривается список соответствий древних и современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]. Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].

Список литературы:

[1] Bollmann, Marcel. 2013. POS Tagging for Historical Texts with Sparse Training Data. In: Proceedings of the 7th Linguistic Annotation Workshop & Interoperability with Discourse, pages 11–18, Sofia, Bulgaria, August 8–9, 2013.

[2] Уфлянд Е. Г., Алексеева Е. Л. Сокращение вариативности написания словоформ в служебных компонентах агиографического корпуса СКАТ // Труды международной конференции «Корпусная лингвистика — 2008». СПб, 2008. С. 376–378.

45th International Philological Research Conference

Принципы нормализации древнерусских житийных текстов для корпуса СКАТ

Ключевые слова, аннотация

Тезисы