Компьютерная грамматика непосредственных составляющих и зависимостей для анализа предложений с неоднозначными обстоятельственными детерминантами
Екатерина Алексеевна Федюкова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-20
15:05 -
15:20
Ключевые слова, аннотация
Доклад посвящен исследованию автоматического
синтаксического разбора предложений на русском языке с неоднозначными
конструкциями, а также созданию грамматики на платформе NLTK. В докладе описано имеющееся
программное обеспечение, алгоритм работы, проведен анализ проблем и освещены дальнейшие перспективы.
Тезисы
В работе исследуется проблема совмещения
грамматик непосредственных составляющих и зависимостей для предложений с неоднозначными
обстоятельственными детерминантами. Для эффективного автоматического
семантического анализа текста может быть необходимо учитывать все возможные
варианты синтаксического разбора каждого предложения, что делает важным
исследование анализа неоднозначных предложений.
В модели непосредственных составляющих любая сложная грамматическая единица складывается из двух более простых и непересекающихся единиц. Благодаря этому предложение можно представить в виде дерева, отражающего связи между частью и целым.
Особенностью грамматик зависимостей является предположение, что между словами есть подчинительные связи, которые устанавливаются непосредственно между словоформами. Структуры зависимостей, в отличие от структур непосредственных составляющих, могут быть легко применены (без дополнительных допущений) к более разнообразному материалу, но неспособны объяснить деривацию предложения. Поэтому в некоторых случаях представляется необходимым объединить две структуры для более эффективного разбора предложений.
Обстоятельственный детерминант — это член предложения, который распространяет предложение в целом, не связан с определённым его членом и определяет предложение со стороны тех или иных обстоятельств. Напр., В порядке опыта магазин работает без продавцов со следующей недели. Структура зависимостей здесь будет одна — в порядке опыта будет относиться к глаголу работает. В грамматике непосредственных составляющих версий будет две, однако для комбинации вида «детерминант плюс предложение» невозможно будет установить, относится ли значение детерминанта к значению всего предложения или только его вершины, глагола. В то же время в предложении имеет место неоднозначность типа «детерминант / обстоятельство»: первое значение подразумевает, что обычно магазин работает с продавцами, а второе — что обычно он работает без продавцов, но на следующей неделе это будет осуществляться в порядке опыта. В существующих моделях данная неоднозначность отражается не вполне корректно. Эту проблему можно решить, совместив два вида грамматик.
Для работы используется платформа Natural Language Toolkit, позволяющая создавать грамматики различных видов для синтаксических анализаторов на языке программирования Python. Материал — созданный для исследования корпус предложений с неоднозначными обстоятельственными детерминантами на русском языке объёмом около трёхсот единиц.
Созданная в рамках исследования формальная грамматика отражает наблюдаемые в корпусе явления синтаксической неоднозначности более корректно, чем модель непосредственных составляющих или модель зависимостей, что подтверждает гипотезу о целесообразности комбинирования этих моделей для данной задачи.
В модели непосредственных составляющих любая сложная грамматическая единица складывается из двух более простых и непересекающихся единиц. Благодаря этому предложение можно представить в виде дерева, отражающего связи между частью и целым.
Особенностью грамматик зависимостей является предположение, что между словами есть подчинительные связи, которые устанавливаются непосредственно между словоформами. Структуры зависимостей, в отличие от структур непосредственных составляющих, могут быть легко применены (без дополнительных допущений) к более разнообразному материалу, но неспособны объяснить деривацию предложения. Поэтому в некоторых случаях представляется необходимым объединить две структуры для более эффективного разбора предложений.
Обстоятельственный детерминант — это член предложения, который распространяет предложение в целом, не связан с определённым его членом и определяет предложение со стороны тех или иных обстоятельств. Напр., В порядке опыта магазин работает без продавцов со следующей недели. Структура зависимостей здесь будет одна — в порядке опыта будет относиться к глаголу работает. В грамматике непосредственных составляющих версий будет две, однако для комбинации вида «детерминант плюс предложение» невозможно будет установить, относится ли значение детерминанта к значению всего предложения или только его вершины, глагола. В то же время в предложении имеет место неоднозначность типа «детерминант / обстоятельство»: первое значение подразумевает, что обычно магазин работает с продавцами, а второе — что обычно он работает без продавцов, но на следующей неделе это будет осуществляться в порядке опыта. В существующих моделях данная неоднозначность отражается не вполне корректно. Эту проблему можно решить, совместив два вида грамматик.
Для работы используется платформа Natural Language Toolkit, позволяющая создавать грамматики различных видов для синтаксических анализаторов на языке программирования Python. Материал — созданный для исследования корпус предложений с неоднозначными обстоятельственными детерминантами на русском языке объёмом около трёхсот единиц.
Созданная в рамках исследования формальная грамматика отражает наблюдаемые в корпусе явления синтаксической неоднозначности более корректно, чем модель непосредственных составляющих или модель зависимостей, что подтверждает гипотезу о целесообразности комбинирования этих моделей для данной задачи.