XX Открытая конференция студентов-филологов в СПбГУ

Опыт разрешения синтаксической неоднозначности однородных именных групп в новостных текстах

Иван Андреевич Кондюрин
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

129
2017-04-20
15:20 - 15:35

Ключевые слова, аннотация

Исследуется снятие некоторых типов синтаксической неоднозначности с использованием средств онтологической семантики. Однородные именные группы порождают специфические виды неоднозначности, которые не всегда верно интерпретируются алгоритмами парсинга. Использование онтологии позволяет уменьшить число ошибок. Чтобы обеспечить бóльшую точность анализа предложений с именными группами, существующая онтология модифицируется.

Тезисы

Снятие синтаксической неоднозначности до сих пор остаётся одной из главных проблем автоматической обработки текста, и её решение актуально не только для дальнейшего повышения точности синтаксического анализа, но и для корректного семантического анализа. Существует ряд подходов к разрешению этой неоднозначности, среди них формально-грамматические, психолингвистические, вероятностно-статистические и семантические (в т. ч. основанные на ограничениях сочетаемости).
В данном исследовании для решения проблемы используется онтологическая семантика. Онтологию в науках об информации можно определить как формализацию абстрактного, упрощённого представления о некоторой предметной области, включающую концепты (формальные модели понятий) этой области и логические выражения для описания отношений между ними. Следует отметить, что лингвистическая онтология отличается от компьютерного тезауруса: она должна содержать все атрибуты и отношения, необходимые для построения семантической структуры текста. Использование тезауруса (к примеру, WordNet) для снятия неоднозначности показало свою недостаточную эффективность из-за недостатка существенной для анализа информации об отношениях между элементами.
Использование онтологий в АОТ началось только в 1991 г., но тогда они применялись преимущественно для разрешения морфологической неоднозначности. Опыты же адаптации метода к синтаксическому уровню начались значительно позже, в 2009–2011 гг., и для текстов на русском языке такой подход использовался лишь в немногих работах.
Для исследования были выбраны типы неоднозначности, порождаемые однородными именными группами: именно они, наряду с обстоятельственными детерминантами, наиболее существенны при анализе насыщенных фактической информацией новостных сообщений. Напр., в предложении Традиционная лекция выдающегося лингвиста, академика, ученого с мировым именем Андрея Анатольевича Зализняка (…) прошла 1 октября однородные именные группы создают более 10 возможных трактовок, по одной из которых лекцию прочли учёный и мировое имя Зализняка. Исследование проводится на специально созданном корпусе из 500 неоднозначных предложений информационного типа, отобранных из НКРЯ. Для работы использовалась существующая онтология AIIRE. Затем была произведена попытка модифицировать онтологию для повышения точности и полноты анализа.
Проделанная работа показывает, что привлечение онтологической семантики действительно позволяет улучшить качество анализа неоднозначных предложений.