Универсальная позиционная система морфологической разметки для русского языка
Андрей Михайлович Попов
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
2-у
2014-04-11
14:50 -
15:10
Ключевые слова, аннотация
Доклад посвящен разработке новой унифицированной системы для морфологической разметки текстов русского языка. Рассматриваются проблемы существующих систем морфологической разметки, их преимущества и недостатки. В докладе показывается необходимость разработки новой единой системы, лишенной большинства недостатков, присущих существующим на данный момент системам морфологической разметки.
Тезисы
Единая позиционная морфологическая разметка представляет
собой универсальный способ описания морфологических характеристик слов русского
языка. Система согласована как с общими представлениями о структуре русской
морфологии, так и с наиболее распространёнными морфологическими парсерами и
корпусами – АОТ, mystem,
pymorphy, OpenCorpora и
НКРЯ.
Система основана на двух разработках – позиционном формате
морфологической разметки чешского языка Яна Гаича (Jan Hajic) и позиционном
формате морфологической разметки для восточно-европейских языков МТЕ (Multi-Text East). Новая система сочетает
в себе преимущество обеих систем: характерная особенность разметки Яна Гаича
состоит в том, что морфологический тег содержит в себе позиции для всех
морфологических категорий. Данный подход заведомо избыточен, т.к., например,
категория времени, вида, лица и т.д. никогда не будет заполнена для именных
частей речи. Тем не менее это позволяет иметь фиксированную позицию для каждой
морфологической категории независимо от части речи. Иной подход используется в
системе МТЕ. Здесь морфологический тег имеет переменную длину, которая зависит
от части речи. Таким образом, нерелевантные для данной части речи категории не
указываются и не занимают место. Ценой такого подхода является зависимость
позиций морфологических категорий от части речи. Например, позиция категории
падежа для существительных и прилагательных различаются, что приводит к
сложностям при конвертации и использовании и требует дополнительный набор
правил для описания позиций для каждой части речи, что усложняет программную
реализацию.
Оригинальность нового подхода состоит в том, чтобы
попытаться расположить позиции морфологических категорий в теге таким образом,
чтобы нерелевантные для данной части речи категории всегда располагались подряд
в правой части тега. В таком случае длину тега можно автоматически сократить,
отбросив все нерелевантные категории, без ущерба для порядка релевантных.