XLIII Международная филологическая научная конференция

Параметры морфологической аннотации при использовании базы данных форм

Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2014-03-14
14:20 - 14:40

Ключевые слова, аннотация

В докладе рассматриваются проблемы номенклатуры морфологических признаков, которые следует применять в процедурах разметки текстов при использовании базы данных морфологических форм русского языка.

Тезисы

База данных морфологических форм была предложена в качестве варианта представления знаний, необходимых для морфологической интерпретации текстов на русском языке [1], в качестве удобного технологического подхода. Основу технологии обеспечивает словарь неизменяемых и изменяемых частей речи, для последних генерируются все возможные формы, которые характеризуются набором необходимых морфологических признаков.
Преимуществами такого подхода, с точки зрения автора, являются (а) быстрое получение одного или нескольких вариантов морфологической интерпретации в виде комбинации леммы, частеречного тега и набора значений морфологических признаков; (б) возможность объединения усилий по пополнению словаря разными исследователями; (в) простота подключения морфоанализатора такого типа к процедуре собственного анализа; (г) возможность обнаружения и изъятия из системы маловероятных интерпретаций (например, интерпретации формы ладей как мужского имени Ладь или женского имени Ладя), которые, как правило, встречаются в работе всех систем морфоанализа.
В дополнение к указанным свойствам ресурса можно добавить (д) легкость имплементации большого числа исключений и варьирования форм в морфологической парадигматике русского языка (например, *мечт, *победю, ветры/ветра, махаю/машу и проч.), (е) добавление или исключение некоторых морфологических характеристик из перечня, встроенного в структуру БД. В результате применения последнего из упомянутых свойств будет получена новая версия морфологической БД. Однако эта опция является весьма важной при осознании определенных проблем морфологического анализа. В докладе будут рассмотрены проблемы оптимизации набора морфологических признаков. Литература: Гребеньков А.С. Использование словаря порожденных словоформ для централизованного решения проблемы морфологического анализа: Интернет-ресурс www.wordform.ru // Материалы XXXVII международной филологической конференции: Прикладная и математическая лингвистика. СПб., 2008. С. 49–56.