XXI Открытая конференция студентов-филологов в СПбГУ

Частотный грамматический словарь как первичный компонент системы морфологического анализа древнерусских агиографических текстов

Константин Владимирович Сипунин
Докладчик
аспирант
Санкт-Петербургский государственный университет

ауд. 193
2018-04-20
12:55 - 13:10

Ключевые слова, аннотация

Доклад посвящён проблеме разработки автоматизированного морфологического анализатора для древнерусских житий, составляющих Санкт-Петербургский корпус агиографических текстов (СКАТ). Рассматривается задача лемматизации словоформ в размеченной прецедентной совокупности и алгоритмического решения релевантных лингвистических вопросов; обсуждаются свойства эмпирически созданного грамматического словаря и перспективы его переработки в аналитическую модель церковнославянского словоизменения.

Тезисы

Современную диахроническую корпусную лингвистику характеризует активное заимствование и приспособление методик и инструментов, издавна зарекомендовавших себя в деле автоматической обработки текстов на современных языках. Так, словарно-ориентированные морфологические анализаторы, идеологически основанные на грамматическом словаре А. А. Зализняка, в настоящее время задействованы в таких славянских исторических корпусах, как церковнославянский подкорпус Национального корпуса русского языка (НКРЯ) и система «Манускрипт» Ижевского государственного технического университета; параллельные разработки ведутся и для старорусского подкорпуса НКРЯ. Однако в рамках Санкт-Петербургского корпуса агиографических текстов (СКАТ) средства автоматизированного морфологического анализа по сей день не созданы, что существенно ограничивает его научно-исследовательский потенциал.
В качестве переходного звена в процессе работы над морфологическим анализатором для СКАТ предлагается частотный грамматический словарь, полученный на материале ручной морфологической разметки трёх житийных текстов суммарным объёмом порядка 30 тыс. словоупотреблений. В ходе разработки алгоритма лемматизации размеченных словоформ были выявлены следующие основные трудности, сопряжённые с синтезом лемм: (1) графическая и орфографическая вариативность; (2) регулярные морфонологические чередования в составе именных и отчасти глагольных основ, как то: палатализации, падение и прояснение редуцированных, изменение сочетаний согласных с *j; (3) морфонологическое варьирование между глагольными основами инфинитива, прошедшего и настоящего времени, традиционной словоизменительной классификацией церковнославянских глаголов полноценно не учтённое; (4) периферийные явления двойного склонения, усечения формообразующих основ, супплетивизма и некоторые другие. Все подобные нюансы соотношения основ текстовых и словарных форм фиксируются в специальных полях статей частотного грамматического словаря, что в дальнейшем будет способствовать их системному учёту при составлении сводной номенклатуры парадигм и создании полноценной модели словоизменения в церковнославянском языке XVI—XVIII вв.
Несмотря на свой промежуточный характер, словарь в то же время составляет самостоятельный лингвистический ресурс, дающий представление о реальном функционировании словоформ как репрезентантов соответствующих лексем в размеченных текстах корпуса. Основной недостаток настоящей работы, заключающийся в опоре на относительно небольшой объём последних, в ходе итеративной разработки морфологического анализатора предполагается преодолеть в обозримом будущем.