XXII Открытая конференция студентов-филологов в СПбГУ

Подбор оптимальных параметров обучения аффиксного тэггера для русского языка

Вадим Вадимович Гудков
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

129
2019-04-16
13:40 - 13:55

Ключевые слова, аннотация

В работе ставилась задача подбора оптимальных параметров для обучения и тестирования аффиксного тэггера из пакета библиотек обработки естественного языка NLTK для последующего включения модуля в разрабатываемую на кафедре математической лингвистики библиотеку обработки естественного языка NLTK4Russian. В результате проведенного исследования были получены оптимальные параметры и изучены важные технические особенности модуля.

Тезисы

Целью данной работы было исследование оптимальных параметров обучения тэггера русского языка из пакета библиотек NLTK для его последующего подключения к библиотеке NLTK4Russian. Для обучения и тестирования тэггера были взяты материалы проекта «Открытый корпус». Таким образом, задачи работы заключаются в следующем: 1) исследование класса AffixTagger пакета библиотек NLTK; 2) подбор оптимальных параметров обучения аффиксного тэггера для русского языка; 3) обучение тэггера и его тестирование на выбранных данных.
В ходе экспериментального исследования были обозначены оптимальные параметры для обучения аффиксного тэггера, были реализованы функции предобработки обучающих данных, а также было выяснено, что тэггер гораздо лучше проявляет себя в частеречной разметке, чем в полной морфологической разметке. Практическая ценность данной работы заключается в том, что результаты исследования можно использовать для расширения имеющейся библиотеки обработки естественного языка, разработанной на кафедре математической лингвистики СПбГУ.