XLV Международная филологическая научная конференция

Компьютерное представление синтаксических структур и их семантическая интерпретация в системе AIIRE

Алексей Владимирович Добров
Докладчик
ассистент
Санкт-Петербургский государственный университет

193
2016-03-16
16:00 - 16:20

Ключевые слова, аннотация

В докладе будет представлена компьютерная грамматика, используемая в системе AIIRE для синтаксического анализа русскоязычных текстов. Данная грамматика представляет собой комбинацию грамматики непосредственных составляющих и зависимостей, допускающую нестрого бинарное ветвление и разрывные составляющие. Грамматика состоит из взаимосвязанных классов непосредственных составляющих, для каждого из которых указаны возможные ядерные составляющие, зависимые составляющие, грамматические требования, способы линеаризации и вычисления семантического графа.

Тезисы

Система автоматической обработки AIIRE (Artificial Intelligence Information Retrieval Engine) разрабатывается в течение последних лет коллективом разработчиков, одним из которых является автор данного доклада. AIIRE выполняет одновременно морфологический, синтаксический и семантический анализ текста, реализуя при этом метод межуровневого взаимодействия: анализ на различных языковых уровнях производится не последовательно, а параллельно. Это позволяет разрешать неоднозначность на нижестоящих уровнях при помощи информации, полученной в результате анализа на вышестоящих уровнях, непосредственно после возникновения неоднозначности, т. е. до возникновения комбинаторного взрыва. Принципиальную важность при этом приобретает точность той лингвистической модели, которая реализуется на синтаксическом уровне: именно на этом уровне неоднозначность представляет собой наибольшую проблему при анализе текста.
В докладе будет представлена компьютерная грамматика, используемая в системе AIIRE для синтаксического анализа русскоязычных текстов. Данная грамматика представляет собой комбинацию грамматики непосредственных составляющих и зависимостей, допускающую нестрого бинарное ветвление и разрывные составляющие. Грамматика состоит из взаимосвязанных классов непосредственных составляющих, для каждого из которых указаны возможные ядерные составляющие, зависимые составляющие, грамматические требования, способы линеаризации и вычисления семантического графа.
В грамматике отражены как «канонические» синтаксические конструкции, описанные в теоретических работах и свойственные практически любому жанру письменной речи, так и специфические обороты, характерные для публицистического стиля текстов новостных сообщений, представляющих собой основной материал исследования.
В грамматике в равной степени находят отражение как правила согласования, управления и примыкания, так и правила пунктуации и существующие варианты их использования; вариативные конструкции отражены различными классами составляющих, обладающими одинаковыми значениями (правилами вычисления семантического графа).
В докладе будут рассмотрены основные проблемы синтаксического анализа русскоязычных текстов и способы их решения, принятые в грамматике AIIRE. Особое внимание будет уделено проблемам синтаксической неоднозначности и вопросам о трактовке различных конструкций: конструкции с множественным управлением, вопрос о статусе локатива и препозитива в синтаксисе, вопрос о формализации глагольных свойств групп процессуальных имен существительных, способы формализации однородности и отрицания, сложноподчиненных предложений и, в особенности, придаточных предложений со словом «который».
Будут показаны существующие достоинства и недостатки данной грамматики, а также не решенные на сегодняшний день проблемы.