47th International Philological Research Conference

MAST: система морфологического аннотирования нестандартных текстов

Артем Викторович Андреев
Докладчик
младший научный сотрудник
Институт лингвистических исследований РАН

193
2018-03-22
14:20 - 14:40

Ключевые слова, аннотация

морфологический анализ; исторические корпуса; грамматика зависимостей; программирование в конечных доменах

Тезисы

В докладе будет представлена система автоматической морфосинтаксической разметки, не опирающейся на априорный словарь. Областью применения данной системы является разметка текстов на языках, не имеющих жесткой языковой нормы, - в первую очередь, старопечатных текстов. Автоматический анализ таких текстов затруднен не только отсутствием машинно-читаемых грамматических словарей и не всегда адекватным грамматическим описанием, но и их принципиально высокой языковой вариативностью.  К тому же,  размер таких текстов зачастую невелик, что затрудняет  использование  статистических  методов   анализа   текста.  Для языков балто-славянского типа проблема усугубляется наличием сложных  нелинейных правил чередования. Разрабатываемая система опирается на приблизительный набор морфологических правил, сопоставляющих сегментам словоформы возможные грамматические показатели. Выбор правильного варианта осуществляется через решение задачи удовлетворения ограничений, в качестве которых выступают возможные грамматические связи. Система была опробована на литовских текстах конца XVI века и на древнерусском корпусе, разрабатываемом в Институте русского языка. При этом во многих случаях точность разметки из первых принципов оказывается не хуже, чем при использовании априорного словаря.