К вопросу о поиске хозяина предложной группы «по вопросам»
Кирилл Кириллович Боярский
Докладчик
доцент
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Евгений Александрович Каневский
Докладчик
ведущий научный сотрудник
ИПРЭ РАН
ИПРЭ РАН
193
2015-03-12
15:20 -
15:40
Ключевые слова, аннотация
Доклад посвящен вопросам нахождения «хозяина» для существительных с
предлогами. В качестве примера рассматривается предложный оборот по
вопросам (по вопросу). Показано, что в этом случае хозяин часто
расположен достаточно далеко от такого оборота. Для его определения
рекомендуется выделить несколько специальных групп существительных. Поиск
хозяина осуществляется путем сдвига влево от предложного оборота с учетом
принадлежности очередного существительного к той или иной группе.
Тезисы
Проблема обработки текстов на естественном языке была и остается чрезвычайно
актуальной. Одной из важных проблем при семантико-синтаксическом анализе
является проблема установления правильных связей между существительными, в
частности нахождения «хозяина» для существительных с предлогами
[1].
Примером подобной связи является связь, образуемая словосочетаниями по вопросам и по вопросу [2] Для анализа этих связей было подобрано около 1800 отдельных предложений, которые распределились приблизительно таким образом:
с предложным оборотом по вопросам – 1050,
с предложным оборотом по вопросу – 320,
с предлогом по и существительным вопросам – 135,
с предлогом по и существительным вопросу – 290.
В качестве инструмента для анализа был использован парсер SemSin, осуществляющий глубинный синтаксический анализ русскоязычных текстов [3]. Анализ осуществляется под управлением продукционных правил. Результатом работы парсера является построение синтаксического дерева зависимостей с возможно полным снятием грамматической и частеречной омонимии.
Как показал анализ, около 45% предложений обладают локальной связью, например,
…– прокомментировал РБК daily председатель подкомитета по вопросам обращения лекарственных средств.
Однако значительное количество связей осуществляется нелокально, иногда даже через несколько слов
:…– говорит заместитель мэра по вопросам социального развития Леонид Печатников. ● В свое время был референдум в Квебеке, в Канаде по вопросу о самостоятельности, независимости этой провинции. ● "Возможно, в своем будущем постановлении ВАС поставит точку в долгой борьбе бизнеса с налоговыми органами по вопросу дробления бизнеса", – надеется он. ● В задачи SMC входило консультирование крупных концернов и клиентов по вопросам о том, как наиболее эффективно экономить на налогах (в этом предложении имеется предлог по и существительное вопрос).
Для анализа были выделены несколько групп существительных:
1) «Руководители» (гендиректор, губернатор, мэр, президент)– к ним рассматриваемая нами связь не подключается.
2) «Помощники» (заместитель, заммэра, советник) – к ним такая связь часто подключается.
3) «Комитеты» (группа, департамент, комитет, совет (но не совет директоров)) – к ним такая связь часто подключается.
4) «Информационные действия» (доклад, обращение, переговоры) – возможно подключение такой связи.
5) Особую группу составляют слова министр и министерство, которые требуют дополнительной обработки, поскольку встречается как сочетания министр по вопросам, так и помощник министра по вопросам.
Основной алгоритм осуществляет поиск влево от предложного оборота, пропуская слова первой группы и запоминая слова четвертой группы. При встрече слов второй или третьей группы связь подключается (заммэра Москвы по вопросам градостроительной политики; член комитета Госдумы по вопросам семьи. Если встречается предикат, то производится проверка на наличие в памяти слов четвертой группы: если такое слово есть, то подключение осуществляется к нему (мы провели переговоры с коллегами из Великобритании, Германии и других стран по вопросам организации предварительной сортировки), в противном случае эта связь подключается к предикату (консультирует правительство Норвегии по вопросам стратегии инвестирования).
В приведенных выше примерах слова, к которым подключается предложный оборот выделены жирным шрифтом.
Литература:
1. Кобзарева Т.Ю. Поиск хозяина предложной группы в русском предложении // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). – М.: Изд-во РГГУ, 2010. С. 186–191.
2. Рогожникова Р.П. Толковый словарь сочетаний, эквивалентных слову. М.: ООО «Издательство Астрель»: ООО «Издательство АСТ», 2003.
3. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор
SemSin // URL: http://www.dialog-21.ru/digest/2012/?type=doc
Примером подобной связи является связь, образуемая словосочетаниями по вопросам и по вопросу [2] Для анализа этих связей было подобрано около 1800 отдельных предложений, которые распределились приблизительно таким образом:
с предложным оборотом по вопросам – 1050,
с предложным оборотом по вопросу – 320,
с предлогом по и существительным вопросам – 135,
с предлогом по и существительным вопросу – 290.
В качестве инструмента для анализа был использован парсер SemSin, осуществляющий глубинный синтаксический анализ русскоязычных текстов [3]. Анализ осуществляется под управлением продукционных правил. Результатом работы парсера является построение синтаксического дерева зависимостей с возможно полным снятием грамматической и частеречной омонимии.
Как показал анализ, около 45% предложений обладают локальной связью, например,
…– прокомментировал РБК daily председатель подкомитета по вопросам обращения лекарственных средств.
Однако значительное количество связей осуществляется нелокально, иногда даже через несколько слов
:…– говорит заместитель мэра по вопросам социального развития Леонид Печатников. ● В свое время был референдум в Квебеке, в Канаде по вопросу о самостоятельности, независимости этой провинции. ● "Возможно, в своем будущем постановлении ВАС поставит точку в долгой борьбе бизнеса с налоговыми органами по вопросу дробления бизнеса", – надеется он. ● В задачи SMC входило консультирование крупных концернов и клиентов по вопросам о том, как наиболее эффективно экономить на налогах (в этом предложении имеется предлог по и существительное вопрос).
Для анализа были выделены несколько групп существительных:
1) «Руководители» (гендиректор, губернатор, мэр, президент)– к ним рассматриваемая нами связь не подключается.
2) «Помощники» (заместитель, заммэра, советник) – к ним такая связь часто подключается.
3) «Комитеты» (группа, департамент, комитет, совет (но не совет директоров)) – к ним такая связь часто подключается.
4) «Информационные действия» (доклад, обращение, переговоры) – возможно подключение такой связи.
5) Особую группу составляют слова министр и министерство, которые требуют дополнительной обработки, поскольку встречается как сочетания министр по вопросам, так и помощник министра по вопросам.
Основной алгоритм осуществляет поиск влево от предложного оборота, пропуская слова первой группы и запоминая слова четвертой группы. При встрече слов второй или третьей группы связь подключается (заммэра Москвы по вопросам градостроительной политики; член комитета Госдумы по вопросам семьи. Если встречается предикат, то производится проверка на наличие в памяти слов четвертой группы: если такое слово есть, то подключение осуществляется к нему (мы провели переговоры с коллегами из Великобритании, Германии и других стран по вопросам организации предварительной сортировки), в противном случае эта связь подключается к предикату (консультирует правительство Норвегии по вопросам стратегии инвестирования).
В приведенных выше примерах слова, к которым подключается предложный оборот выделены жирным шрифтом.
Литература:
1. Кобзарева Т.Ю. Поиск хозяина предложной группы в русском предложении // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). – М.: Изд-во РГГУ, 2010. С. 186–191.
2. Рогожникова Р.П. Толковый словарь сочетаний, эквивалентных слову. М.: ООО «Издательство Астрель»: ООО «Издательство АСТ», 2003.
3. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор
SemSin // URL: http://www.dialog-21.ru/digest/2012/?type=doc