Описание морфологических парадигм с помощью модели конечного преобразователя
Якуб Константинович Харабет
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2016-04-19
13:40 -
14:00
Ключевые слова, аннотация
В докладе рассматривается применение конечного преобразователя для восстановления морфологических парадигм по машинному грамматическому словарю для польского языка. Обсуждаются особенности построения конечного преобразователя, преимущства использования данной модели в компьютерной морфологии. Приводятся результаты работы с материалом польского языка, в целом подтверждающие надежность модели.
Тезисы
Морфологический анализ — одна из самых востребованных процедур при автоматической обработке таких синтетических языков, как славянские языки. В языках с богатой морфологией морфологический анализ является необходимым этапом перед совершением таких простых операций как составление частотных списков слов, а также более сложных: нахождение именованных сущностей, извлечение фактов, сентиментный анализ и др.
Существуют два основных подхода: словарный и бессловарный. Словарный подход требует предварительного составления морфологического словаря, однако может обеспечить максимальную точность анализа на большинстве текстов. Бессловарный подход бывает востребован, если словарь для данного языка недоступен, или в случаях с особыми текстами (нестабильный лексикон, обилие специальных терминов).
Конечный преобразователь — это конечный автомат, который, последовательно получая на вход символы из некоторого множества X, переходит в определенные состояния из множества Q и возвращает на выходе последовательность символов из множества Y. Особенности морфологических анализаторов на основе КП позволяют экономить вычислительные ресурсы (по сравнению с более простым и очевидным табличным представлением словаря), а также позволяют автоматически выделять словоизменительные и словообразовательные парадигмы конкретного языка.
В качестве иллюстрации работы алгоритма представим, что на вход анализатора поступила словоформа стеной. С каждым прочитанным символом автомат будет переходить в конкретное состояние и выдавать конкретный символ на выходе. В случае со словоформой стеной последовательность пар входных/выходных символов будет выглядеть таким образом: С:С, Т:Т, Е:Е, Н:Н, О:А, Й:+Твор+Мн. При анализе словоформ, относящихся к одной словоизменительной парадигме, автомат проходит одни и те же конечные состояния. Это свойство достигается за счет процедуры минимизации конечного преобразователя. Процедура реализуется полностью автоматически. Получившийся КП можно преставить в виде графа, в котором отдельные подграфы будут демонстрировать отедльные парадигмы и наборы флексий, характерных для них. При наличии морфологического словаря возможно полностью автоматическое выделение словоизменительных классов в любом флективном языке.
В экспериментах использовался словарь польского языка PoliMorf. В нем представлены более 6 млн словоформ и их характеристики: словарная форма, список граммем, лексический класс.
В докладе представлен метод построения конечного преобразователя из морфологического словаря, а также способы его применения.