Принципы нормализации древнерусских житийных текстов для корпуса СКАТ
Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-03-17
14:45 -
15:05
Ключевые слова, аннотация
На кафедре математической лингвистики Санкт-Петербургского
государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ), в
котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв. Доклад посвящен проблемам нормализации орфографии и лемматизации в словоуказателе к текстам житий.
Тезисы
На кафедре математической лингвистики Санкт-Петербургского
государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ), в
котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв.
В числе наших очередных задач при работе с корпусом стоит
проблема лемматизации. Для этого есть очевидный подход: связать древнерусские
словоформы с их каноническим представлением в современном русском, однако
некоторые древнерусские лексемы не имеют эквивалентов в современном словаре.
Для немецкого языка была предложена трехступенчатая схема нормализации:
1) вначале просматривается список соответствий древних и современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]. Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].
Список литературы:
1) вначале просматривается список соответствий древних и современных лексических эквивалентов и устанавливаются однозначные варианты;
2) для словоформ, не получивших интерпретации на первом этапе, используется «нормализация по правилам»: стандартная замена древних орфограмм на современные;
3) при неоднозначности замен используют взвешенное расстояние Левенштейна, при котором определяется минимальное количество операций редактирования (вставки, удаления и замены символов), необходимых для превращения одной словоформы в другую.
Все этапы нормализации проводились на базе обучающего корпуса размером до 1000 словоупотреблений [1]. Для обеспечения всех этапов нормализации мы предполагаем использовать в качестве обучающего корпуса фрагмент грамматически размеченных текстов (на данный момент его объем превышает 48 000 словоупотреблений) и общий словник словоуказателя по всем текстам корпуса объемом свыше 132 000 единиц. Были проведены предварительные эксперименты по установлению соответствий и группировке словоформ с неустойчивой орфографией [2].
Список литературы:
[1] Bollmann, Marcel. 2013. POS
Tagging for Historical Texts with Sparse Training Data. In: Proceedings of the
7th Linguistic Annotation Workshop & Interoperability with Discourse, pages
11–18, Sofia, Bulgaria, August 8–9, 2013.
[2] Уфлянд
Е. Г., Алексеева Е. Л. Сокращение вариативности написания словоформ в
служебных компонентах агиографического корпуса СКАТ // Труды международной конференции «Корпусная лингвистика —
2008». СПб, 2008. С. 376–378.