Автоматическое извлечение именованных сущностей из русскоязычных корпусов текстов с применением Томита-парсера
Дарья Алексеевна Андреева
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2016-04-19
13:20 -
13:40
Ключевые слова, аннотация
Извлечение
именованных сущностей и их классификация — важный подраздел извлечения
информации. В докладе мы расскажем подробнее об этой интересной задаче, опишем
основные типы сущностей, а также представим правила, выделяющие нужные цепочки c помощью инструмента Томита-парсер.
Тезисы
Наше исследование сфокусировано на анализе именованных
сущностей и вдохновлено соревнованием русскоязычных систем извлечения
информации FactRuEval 2016 [URL: http://www.dialog-21.ru/evaluation/2016/letter/]. Именованные сущности представляют собой разновидность
фактов и реализуются в виде особых конструкций с именами собственными,
используемые для обозначения людей, мест, организаций и т. п. Прикладная
классификация имен собственных обширна, на сегодняшний день она включает около 200 подкатегорий.
На данный момент опубликовано большое количество работ по
поиску именованных сущностей разных типов и их нормализации. Для выделения именованных
сущностей используют различные методы. Основными можно считать два подхода: 1)
статистический, предполагающий
использование машинного обучения, 2) лингвистический, основанный на правилах.
В наших экспериментах по автоматическому выделению именованных сущностей применяются правила, составленные вручную. Несмотря на то, что этот метод достаточно трудоемок при реализации масштабных проектов, для работы с небольшими корпусами текстов он позволяет увеличить качество. Выделение именованных сущностей подразумевает наличие неструктурированных текстов и их дальнейшую обработку. Смена жанра и тематики текстов может значительно повлиять на эффективность автоматического анализа сущностей. При работе с такими сущностями, как люди, места и организации наибольший интерес представляют новостные статьи. Так, лингвистическим материалом нашего исследования служат тексты электронных СМИ.
В нашей работе для осуществления задачи используется Tомита-парсер [URL: https://tech.yandex.ru/tomita/]. Данный инструмент был разработан компанией Яндекс для вычленения структурированных данных из текстов. Tомита-парсер функционирует на основе контекстно-свободных грамматик и словарей ключевых слов. Результаты автоматической обработки корпуса текстов выводятся на поля, заполненные необходимыми сущностями и фактами. В докладе будут представлены готовые правила и полученные на их основе конструкции с именованными сущностями. Томита-парсер поддерживает регулярные выражения.
Проведенные эксперименты свидетельствуют о целесообразности применения Томита-парсера для выполнения процедуры автоматического извлечения именованных сущностей (прежде всего, имен собственных) из русскоязычных текстов.
В наших экспериментах по автоматическому выделению именованных сущностей применяются правила, составленные вручную. Несмотря на то, что этот метод достаточно трудоемок при реализации масштабных проектов, для работы с небольшими корпусами текстов он позволяет увеличить качество. Выделение именованных сущностей подразумевает наличие неструктурированных текстов и их дальнейшую обработку. Смена жанра и тематики текстов может значительно повлиять на эффективность автоматического анализа сущностей. При работе с такими сущностями, как люди, места и организации наибольший интерес представляют новостные статьи. Так, лингвистическим материалом нашего исследования служат тексты электронных СМИ.
В нашей работе для осуществления задачи используется Tомита-парсер [URL: https://tech.yandex.ru/tomita/]. Данный инструмент был разработан компанией Яндекс для вычленения структурированных данных из текстов. Tомита-парсер функционирует на основе контекстно-свободных грамматик и словарей ключевых слов. Результаты автоматической обработки корпуса текстов выводятся на поля, заполненные необходимыми сущностями и фактами. В докладе будут представлены готовые правила и полученные на их основе конструкции с именованными сущностями. Томита-парсер поддерживает регулярные выражения.
Проведенные эксперименты свидетельствуют о целесообразности применения Томита-парсера для выполнения процедуры автоматического извлечения именованных сущностей (прежде всего, имен собственных) из русскоязычных текстов.