Модуль лемматизации для корпуса СКАТ: первые шаги
Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-21
13:10 -
13:25
Ключевые слова, аннотация
Работа выполняется в рамках проекта СКАТ (Санкт-Петербургский корпус агиографических текстов). Доклад посвящён проблеме создания одного из компонентов системы морфологического анализа текстов в составе корпуса — модуля лемматизации. Рассматривается принятый в проекте формат грамматической разметки и возможности его расширения для обеспечения работоспособности модуля; частные особенности церковнославянского словоизменения и меры, принятые для их полноценного учёта; перспективы дальнейшей разработки.
Тезисы
В Санкт-Петербургском корпусе агиографических текстов (СКАТ), созданном на кафедре математической лингвистики СПбГУ, представлены тексты древнерусских житий по спискам XVI—XVIII вв. Среди актуальных задач развития функциональности корпуса стоит проблема лемматизации — приведения текстовых словоформ к их словарным формам (леммам). Была поставлена задача разработать первичный алгоритм лемматизации имён (существительных, прилагательных, числительных, а также местоимений) на материале ручной грамматической разметки трёх житий (суммарный объём — более 30 тыс. словоформ).
Принятая в СКАТ схема разметки имён включает в себя следующие позиции: тип склонения, падеж, число, род и лицо (у местоимений). Однако в ходе работы выяснилось, что сугубо морфологических сведений о словоформах для нужд лемматизации недостаточно: необходим учёт морфонологических и некоторых орфографических явлений, на предварительном этапе нормализации (отождествления орфографических вариантов) неустранимых. В этой связи в схему были внесены определённые уточнения, а также введено новое поле — «индекс», по замыслу подобный грамматическому индексу А. А. Зализняка. В него входят такие пометы, как «*», свидетельствующая о действии на конце основы одного из законов палатализации (творче → творець, мнози → многъ), и «+X» либо «−X», в зависимости от X означающие прояснение либо исчезновение редуцированных (помыслы → помыселъ, золъ → зло), пропуск некоторых букв по соседству с выносными (по(с) → постъ, пѣ(с)ми → пѣснь) и др.
В основе собственно лемматизации лежит алгоритм усечения окончаний, разнесённых по двум парадигматическим классам: субстантивному и местоименно-адъективному. Полученная в результате усечения псевдооснова подвергается дальнейшим преобразованиям: так, у существительных в автоматическом режиме устраняются последствия падения редуцированных в частотном суффиксе -ьц- (старцу → старець, овець → овца); восстанавливается суффикс единичности у гетероклитик на -ин- (хр(с)тиане → христианинъ); особых решений потребовали сложные существительные со склонением обеих частей (новаграда → новградъ, полудни → полдень). Ограниченно (для личных, вопросительных и возвратного местоимений) используется алгоритм поиска флективных форм целиком.
На рассмотренном материале результативность алгоритма приближается к стопроцентной, но данный результат нельзя не признать весьма условным: он целиком обеспечивается корректностью разметки с учётом всех нововведений. Целесообразным было бы рассматривать полученную совокупность лемм как прецедентную для полностью автоматического модуля лемматизации, который планируется разработать в дальнейшем. Кроме того, требуют своего решения проблемы создания соответствующего алгоритма для глаголов и причастий, а также интеграции полученных данных в веб-представление корпуса.