Алгоритм автоматизированного выделения парадигм на материале прибалтийско-финских языков
Дарья Андреевна Денисова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-20
12:40 -
12:55
Ключевые слова, аннотация
Задачей исследования являлось построение статистического морфологического анализатора для языков прибалтийско-финской группы. Материалом для созданного алгоритма послужили корпуса современных публицистических текстов. В докладе рассматривается построение алгоритма, результаты его работы и перспективы дальнейшего развития.
Тезисы
В докладе обсуждается создание морфологического анализатора для языков прибалтийско-финской группы финно-угорских языков, в которую входят финский, карельский, вепсский, ижорский, водский, ливский и эстонский языки.
Сложность создания систем автоматического морфологического анализа для этих агглютинативных языков, состоит в том, что вследствие богатой системы аффиксов количество потенциальных основ, которые должна уметь распознавать система, бесчисленно. Дополнительная трудность состоит в том, что в рассматриваемых языках существуют некоторые особенности, усложняющие процесс морфологического анализа, напр., чередование ступеней согласных в основе.
Особенность нашего морфологического анализатора в том, что он создан не для одного языка, а для целой группы грамматически схожих языков. Разработка алгоритма велась на основе финского языка, поскольку он является наиболее изученным и лучше всего описанным языком этой группы. Результаты морфологического анализа для каждого конкретного языка, соответственно, зависели от степени его схожести с финским: для карельского и вепсского они оказались лучше, чем для эстонского. Материалы для работы были взяты из современных публицистических изданий на данных языках и были собраны в корпуса.
Для определения морфологического состава слов данный алгоритм использовал дистрибутивно-статистические данные, полученные из выборки предложений. Выбор именно такого способа построения алгоритма объясняется тем, что система должна была работать для нескольких языков. Результаты работы оценивались с помощью имеющихся морфологических анализаторов, а в тех случаях, когда морфоанализаторы не были доступны, с привлечением носителей языка.
Сложность создания систем автоматического морфологического анализа для этих агглютинативных языков, состоит в том, что вследствие богатой системы аффиксов количество потенциальных основ, которые должна уметь распознавать система, бесчисленно. Дополнительная трудность состоит в том, что в рассматриваемых языках существуют некоторые особенности, усложняющие процесс морфологического анализа, напр., чередование ступеней согласных в основе.
Особенность нашего морфологического анализатора в том, что он создан не для одного языка, а для целой группы грамматически схожих языков. Разработка алгоритма велась на основе финского языка, поскольку он является наиболее изученным и лучше всего описанным языком этой группы. Результаты морфологического анализа для каждого конкретного языка, соответственно, зависели от степени его схожести с финским: для карельского и вепсского они оказались лучше, чем для эстонского. Материалы для работы были взяты из современных публицистических изданий на данных языках и были собраны в корпуса.
Для определения морфологического состава слов данный алгоритм использовал дистрибутивно-статистические данные, полученные из выборки предложений. Выбор именно такого способа построения алгоритма объясняется тем, что система должна была работать для нескольких языков. Результаты работы оценивались с помощью имеющихся морфологических анализаторов, а в тех случаях, когда морфоанализаторы не были доступны, с привлечением носителей языка.