XXIII Открытая конференция студентов-филологов в СПбГУ

Па — ер — ок: последнее последствие падения редуцированных

Илья Андреевич Афанасьев
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе рассматривается проблема отображения на письме редуцированных гласных в существующих на данный момент корпусах старославянского языка, предлагается её решение для проекта корпуса старославянского языка, разрабатываемого автором, обсуждаются плюсы и минусы предлагаемого подхода, который сравнивается с практикой, применяемой в других корпусах.

Тезисы

При составлении корпуса любого языка большое внимание уделяется графической унификации. В случае со старославянским языком один из ключевых вопросов, которые предстоит решить лингвисту, может быть сформулирован как вопрос о том, как именно в корпусе отображать графемы, маркирующие наличие редуцированных гласных. К группе исследуемых графем относятся ъ (ер, традиционно маркирующий редуцированный непереднего ряда), ь (ерь, традиционно маркирующий редуцированный переднего ряда) и ‘ (паерок, неалфавитный символ, может заменять как ер, так и ерь, выступая в роли своеобразного плейсхолдера букв для обозначения звуков, которые к моменту написания текстов уже почти исчезли из употребления).
При предобработке корпуса старославянского языка существует три возможных способа взаимодействия с данными графемами. Во-первых, относиться к ним как к типографическим ошибкам в национальных корпусах. Редактировать исходную рукопись, проставляя редуцированные гласные на их восстанавливаемые этимологические позиции, но при этом никак не затрагивать постановку паерка. Такой подход применяется в Хельсинкском корпусе. Радикализацией этого подхода была бы замена паерка на этимологический редуцированный гласный, на данный момент не применённая нигде. Наконец,  возможно оставить редуцированные гласные и паерок «как есть». Этот подход также, насколько нам известно, не применялся в существующих электронных коллекциях текстов старославянского языка.
С лингвистической точки зрения нам кажется наиболее оптимальным третий подход, однако из-за особенностей предобработки и доступности большей части старославянских текстов в конечном итоге наименее затратным оказывается компромиссный, первый. Тем не менее и у него есть существенный недостаток. При проведении частеречной разметки наличие паерка вносит высокую степень неоднозначности, средства разрешения которой только предстоит разработать. Помимо этого, приходится заметить, что достаточно большой круг исследований при данном подходе не может быть проведён на материале создаваемого корпуса. Рекомендуется при дальнейшем переводе рукописей старославянского языка в машиночитаемую форму учесть данное замечание. Важным является и то, что сам факт рассмотрения паерка как символа, учитываемого в составе слов наравне с буквами в процессе предобработки текстов для помещения в корпус, поднимает вопрос о переопределении сущности «алфавит для записи текстов старославянского языка» в рамках данной работы. Наконец предлагается возможное решение проблемы, выбранной при используемом подходе к отображению редуцированных гласных, через использование комбинации регулярных выражений и ручной коррекции. Для дискуссии предлагается вопрос о релевантности повторного перевода уже обработанных рукописей в машиночитаемую форму.