Параметры морфологической аннотации при использовании базы данных форм
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-14
14:20 -
14:40
Ключевые слова, аннотация
В докладе рассматриваются проблемы номенклатуры
морфологических признаков, которые следует применять в процедурах разметки текстов при использовании базы данных морфологических форм русского языка.
Тезисы
База данных морфологических форм была предложена в
качестве варианта представления знаний, необходимых для морфологической
интерпретации текстов на русском языке [1], в качестве удобного
технологического подхода. Основу технологии обеспечивает словарь неизменяемых и
изменяемых частей речи, для последних генерируются все возможные формы, которые
характеризуются набором необходимых морфологических признаков.
Преимуществами такого подхода, с точки зрения автора, являются (а) быстрое получение одного или нескольких вариантов морфологической интерпретации в виде комбинации леммы, частеречного тега и набора значений морфологических признаков; (б) возможность объединения усилий по пополнению словаря разными исследователями; (в) простота подключения морфоанализатора такого типа к процедуре собственного анализа; (г) возможность обнаружения и изъятия из системы маловероятных интерпретаций (например, интерпретации формы ладей как мужского имени Ладь или женского имени Ладя), которые, как правило, встречаются в работе всех систем морфоанализа.
В дополнение к указанным свойствам ресурса можно добавить (д) легкость имплементации большого числа исключений и варьирования форм в морфологической парадигматике русского языка (например, *мечт, *победю, ветры/ветра, махаю/машу и проч.), (е) добавление или исключение некоторых морфологических характеристик из перечня, встроенного в структуру БД. В результате применения последнего из упомянутых свойств будет получена новая версия морфологической БД. Однако эта опция является весьма важной при осознании определенных проблем морфологического анализа. В докладе будут рассмотрены проблемы оптимизации набора морфологических признаков. Литература: Гребеньков А.С. Использование словаря порожденных словоформ для централизованного решения проблемы морфологического анализа: Интернет-ресурс www.wordform.ru // Материалы XXXVII международной филологической конференции: Прикладная и математическая лингвистика. СПб., 2008. С. 49–56.
Преимуществами такого подхода, с точки зрения автора, являются (а) быстрое получение одного или нескольких вариантов морфологической интерпретации в виде комбинации леммы, частеречного тега и набора значений морфологических признаков; (б) возможность объединения усилий по пополнению словаря разными исследователями; (в) простота подключения морфоанализатора такого типа к процедуре собственного анализа; (г) возможность обнаружения и изъятия из системы маловероятных интерпретаций (например, интерпретации формы ладей как мужского имени Ладь или женского имени Ладя), которые, как правило, встречаются в работе всех систем морфоанализа.
В дополнение к указанным свойствам ресурса можно добавить (д) легкость имплементации большого числа исключений и варьирования форм в морфологической парадигматике русского языка (например, *мечт, *победю, ветры/ветра, махаю/машу и проч.), (е) добавление или исключение некоторых морфологических характеристик из перечня, встроенного в структуру БД. В результате применения последнего из упомянутых свойств будет получена новая версия морфологической БД. Однако эта опция является весьма важной при осознании определенных проблем морфологического анализа. В докладе будут рассмотрены проблемы оптимизации набора морфологических признаков. Литература: Гребеньков А.С. Использование словаря порожденных словоформ для централизованного решения проблемы морфологического анализа: Интернет-ресурс www.wordform.ru // Материалы XXXVII международной филологической конференции: Прикладная и математическая лингвистика. СПб., 2008. С. 49–56.