Спорные вопросы автоматического морфологического анализа русских текстов на примере «Pymorphy2»
Ангелина Александровна Коваль
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Данная работа посвящена
изучению спорных вопросов в области морфологического анализа русских текстов. Среди
этих вопросов: разнообразие подходов к определению грамматических категорий и их
значений; возможность выбора пользователем морфоанализатора различных наборов
грамматических категорий для решения разного рода задач; снятие морфологической
неоднозначности при помощи учета минимального контекста; снятие
неопределенности анализа с помощью учета нетокенизированного представления текста.
Исследование проводилось на материале текстов, размеченных программой «Pymorphy2».
Тезисы
Проблема автоматического морфологического
анализа русских текстов является одной из центральных в компьютерной
лингвистике, и хотя существует несколько теоретических подходов и немало
практических попыток ее решения, добиться
удовлетворительных результатов в этой области до сих пор не удалось. Целью моей работы стало исследование
сложностей, с которыми сталкиваются разработчики, выявление наиболее частых
ошибок, возникающих при автоматической разметке текста, и поиск методов
улучшения ее качества.
В результате сопоставления возможностей различных морфоанализаторов было определено, что наибольшей функциональностью обладает «Pymorphy2», основанный на словарях из «OpenCorpora». В ходе исследования был применен экспериментальный метод: три текста публицистического стиля были размечены вручную, а затем с помощью «Pymorphy2». Сопоставление результатов разметки позволило сделать следующие выводы.
1) При оценке корректности морфологического анализа возникают трудности из-за существования различных подходов к определению грамматических классов, категорий и значений. Эта же проблема встает и перед создателями новых морфоанализаторов: практически невозможно разработать систему понятий, которая была бы удобна всем.
2) Необходимо ввести опцию выбора пользователем того набора категорий и значений, который был бы необходим ему для решения конкретной задачи. Данные, предоставляемые при автоматической обработке текста, зачастую бывают избыточны и замедляют работу исследователя.
3) Неоднозначность отдельно взятого слова может быть снята при учете минимального контекста.
4) Неопределенность текста в целом можно снять, если учитывать также и нетокенизированное представление текста.
В результате сопоставления возможностей различных морфоанализаторов было определено, что наибольшей функциональностью обладает «Pymorphy2», основанный на словарях из «OpenCorpora». В ходе исследования был применен экспериментальный метод: три текста публицистического стиля были размечены вручную, а затем с помощью «Pymorphy2». Сопоставление результатов разметки позволило сделать следующие выводы.
1) При оценке корректности морфологического анализа возникают трудности из-за существования различных подходов к определению грамматических классов, категорий и значений. Эта же проблема встает и перед создателями новых морфоанализаторов: практически невозможно разработать систему понятий, которая была бы удобна всем.
2) Необходимо ввести опцию выбора пользователем того набора категорий и значений, который был бы необходим ему для решения конкретной задачи. Данные, предоставляемые при автоматической обработке текста, зачастую бывают избыточны и замедляют работу исследователя.
3) Неоднозначность отдельно взятого слова может быть снята при учете минимального контекста.
4) Неопределенность текста в целом можно снять, если учитывать также и нетокенизированное представление текста.