Принципы нормализации древнерусских житийных текстов для корпуса СКАТ
            Елена Леонидовна Алексеева
        
        
        Докладчик
        
        
        доцент
Санкт-Петербургский государственный университет
    Санкт-Петербургский государственный университет
            Ирина Владимировна Азарова
        
        
        Докладчик
        
        
        доцент
Санкт-Петербургский государственный университет
    Санкт-Петербургский государственный университет
            Константин Владимирович Сипунин
        
        
        Докладчик
        
        
        специалист
Just AI
    Just AI
193
2016-03-17
14:45 -
        15:05
    Ключевые слова, аннотация
    На кафедре математической лингвистики Санкт-Петербургского
государственного университета создан и постоянно пополняется  корпус агиографических текстов (СКАТ), в
котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв. Доклад посвящен проблемам нормализации орфографии и лемматизации в словоуказателе к текстам житий.
Тезисы
    На кафедре математической лингвистики Санкт-Петербургского
государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ), в
котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв.
В числе наших очередных задач при работе с корпусом стоит
проблема лемматизации. Для этого есть очевидный подход: связать древнерусские
словоформы с их каноническим представлением в современном русском, однако
некоторые древнерусские лексемы не имеют эквивалентов в современном словаре.
Для немецкого языка была предложена трехступенчатая схема нормализации:
1) вначале просматривается список соответствий древних и современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]. Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].
Список литературы:
		1) вначале просматривается список соответствий древних и современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]. Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].
Список литературы:
[1] Bollmann, Marcel. 2013. POS
Tagging for Historical Texts with Sparse Training Data. In: Proceedings of the
7th Linguistic Annotation Workshop & Interoperability with Discourse, pages
11–18, Sofia, Bulgaria, August 8–9, 2013.
[2] Уфлянд
Е. Г., Алексеева Е. Л. Сокращение вариативности написания словоформ в
служебных компонентах агиографического корпуса СКАТ // Труды международной конференции «Корпусная лингвистика —
2008». СПб, 2008. С. 376–378.