XXIII Открытая конференция студентов-филологов в СПбГУ

Спорные вопросы автоматического морфологического анализа русских текстов на примере «Pymorphy2»

Ангелина Александровна Коваль
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Данная работа посвящена изучению спорных вопросов в области морфологического анализа русских текстов. Среди этих вопросов: разнообразие подходов к определению грамматических категорий и их значений; возможность выбора пользователем морфоанализатора различных наборов грамматических категорий для решения разного рода задач; снятие морфологической неоднозначности при помощи учета минимального контекста; снятие неопределенности анализа с помощью учета нетокенизированного представления текста. Исследование проводилось на материале текстов, размеченных программой «Pymorphy2».

Тезисы

Проблема автоматического морфологического анализа русских текстов является одной из центральных в компьютерной лингвистике, и хотя существует несколько теоретических подходов и немало практических попыток ее решения, добиться удовлетворительных результатов в этой области до сих пор не удалось. Целью моей работы стало исследование сложностей, с которыми сталкиваются разработчики, выявление наиболее частых ошибок, возникающих при автоматической разметке текста, и поиск методов улучшения ее качества. 
В результате сопоставления возможностей различных морфоанализаторов было определено, что наибольшей функциональностью обладает «Pymorphy2», основанный на словарях из «OpenCorpora». В ходе исследования был применен экспериментальный метод: три текста публицистического стиля были размечены вручную, а затем с помощью «Pymorphy2». Сопоставление результатов разметки позволило сделать следующие выводы.
1) При оценке корректности морфологического анализа возникают трудности из-за существования различных подходов к определению грамматических классов, категорий и значений. Эта же проблема встает и перед создателями новых морфоанализаторов: практически невозможно разработать систему понятий, которая была бы удобна всем. 
2) Необходимо ввести опцию выбора пользователем того набора категорий и значений, который был бы необходим ему для решения конкретной задачи. Данные, предоставляемые при автоматической обработке текста, зачастую бывают избыточны и замедляют работу исследователя. 
3) Неоднозначность отдельно взятого слова может быть снята при учете минимального контекста.
4) Неопределенность текста в целом можно снять, если учитывать также и нетокенизированное представление текста.