XIX Открытая конференция студентов-филологов в СПбГУ

Автоматическое извлечение именованных сущностей из русскоязычных корпусов текстов с применением Томита-парсера

Дарья Алексеевна Андреева
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

129
2016-04-19
13:20 - 13:40

Ключевые слова, аннотация

Извлечение именованных сущностей и их классификация — важный подраздел извлечения информации. В докладе мы расскажем подробнее об этой интересной задаче, опишем основные типы сущностей, а также представим правила, выделяющие нужные цепочки c помощью инструмента Томита-парсер.

Тезисы

Наше исследование сфокусировано на анализе именованных сущностей и вдохновлено соревнованием русскоязычных систем извлечения информации FactRuEval 2016 [URL: http://www.dialog-21.ru/evaluation/2016/letter/]. Именованные сущности представляют собой разновидность фактов и реализуются в виде особых конструкций с именами собственными, используемые для обозначения людей, мест, организаций и т. п. Прикладная классификация имен собственных обширна, на сегодняшний день она включает  около 200 подкатегорий. На данный момент опубликовано большое количество работ по поиску именованных сущностей разных типов и их нормализации. Для выделения именованных сущностей используют различные методы. Основными можно считать два подхода: 1) статистический, предполагающий  использование машинного обучения, 2) лингвистический, основанный на правилах.
В наших экспериментах по автоматическому выделению именованных сущностей применяются правила, составленные вручную. Несмотря на то, что этот метод достаточно трудоемок при реализации масштабных проектов, для работы с небольшими корпусами текстов он позволяет увеличить качество. Выделение именованных сущностей подразумевает наличие неструктурированных текстов и их дальнейшую обработку. Смена жанра и тематики текстов может значительно повлиять на эффективность автоматического анализа сущностей. При работе с такими сущностями, как люди, места и организации наибольший интерес представляют новостные статьи. Так, лингвистическим материалом нашего исследования служат тексты электронных СМИ.
В нашей работе для осуществления задачи используется Tомита-парсер [URL: https://tech.yandex.ru/tomita/]. Данный инструмент был разработан компанией Яндекс для вычленения структурированных данных из текстов. Tомита-парсер функционирует на основе контекстно-свободных грамматик и словарей ключевых слов. Результаты автоматической обработки корпуса текстов выводятся на поля, заполненные необходимыми сущностями и фактами. В докладе будут представлены готовые правила и полученные на их основе конструкции с именованными сущностями. Томита-парсер поддерживает регулярные выражения.
Проведенные эксперименты свидетельствуют о целесообразности применения Томита-парсера для выполнения процедуры автоматического извлечения именованных сущностей (прежде всего, имен собственных) из русскоязычных текстов.