XXII Открытая конференция студентов-филологов в СПбГУ

Гибридный подход к автоматическому определению языка

Дарья Андреевна Денисова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

129
2019-04-16
13:55 - 14:10

Ключевые слова, аннотация

Доклад посвящен созданию гибридной системы автоматического определения языка. Материалом для работы послужили языки прибалтийско-финской группы. В рамках исследования были изучены и протестированы некоторые алгоритмы машинного обучения, создан алгоритм определения языка на основании словаря показателей и разработан гибридный алгоритм, совмещающий словарный подход с машинным обучением. В докладе представлены описания алгоритмов, результаты их работы, а также рассмотрены перспективы применения гибридной системы.

Тезисы

В докладе описывается создание гибридной системы автоматического определения языка для языков прибалтийско-финской группы, которой принадлежат финский, эстонский, карельский, вепсский, ижорский и водский языки.
Автоматическое определения языка проводится в рамках разработки системы морфологического анализа текстов на языках прибалтийско-финской группы, при этом вероятностное определение языка предшествует собственно морфологическому анализу.
Для решения данной задачи было исследовано два подхода: словарный подход на основании перечня грамматических показателей и подход на основании методов машинного обучения. Предполагалось, что словарный подход позволит хорошо определить язык для слов, в которых однозначно выражены грамматические показатели, и непосредственно выдать значение этих показателей. Методы машинного обучения, в свою очередь, отлично работают для огромного объема данных, но, к сожалению, подавляющее большинство прибалтийско-финских языков являются малоресурсными. Следовательно, для улучшения качества предсказания возникла необходимость поиска наилучшего алгоритма машинного обучения и реализации гибридной системы вместо со словарным методом.
В рамках словарного подхода для каждого языка был составлено описание грамматических показателей и их значений, и по части текстов на соответствующем языке для каждого показателя была определена его вероятность. В рамках машинного подхода были проведены эксперименты с различными методами многоклассовой классификации: нейронной сетью, логистической регрессией, случайным лесом, наивным байесовским классификатором, методом опорных векторов и методом k-ближайших соседей. Для каждого метода были рассмотрены различные признаки: слова, различные n-граммы (n = {1, 2, 3, 4}), и их комбинации.
Наконец, были проведены эксперименты с  различными реализациями гибридных систем. Были рассмотрены одновременная реализация обоих подходов и усреднение их результатов, а также последовательная реализация, в которой сначала применялся словарный метод, а затем — машинное обучение, и наоборот. В результате работа гибридных систем оказалась лучше работы чисто словарных или чисто машинных систем, поэтому для системы морфологического анализа была выбрана именно гибридная система.