Подбор оптимальных параметров обучения аффиксного тэггера для русского языка
Вадим Вадимович Гудков
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2019-04-16
13:40 -
13:55
Ключевые слова, аннотация
В работе ставилась задача подбора оптимальных параметров для обучения и тестирования аффиксного тэггера из пакета библиотек обработки естественного языка NLTK для последующего включения модуля в разрабатываемую на кафедре математической лингвистики библиотеку обработки естественного языка NLTK4Russian. В результате проведенного исследования были получены оптимальные параметры и изучены важные технические особенности модуля.
Тезисы
Целью данной работы было исследование оптимальных параметров обучения тэггера русского языка из пакета библиотек NLTK для его последующего подключения к библиотеке NLTK4Russian.
Для обучения и тестирования тэггера были взяты материалы проекта «Открытый корпус». Таким образом, задачи работы заключаются в следующем: 1) исследование класса AffixTagger пакета библиотек NLTK; 2) подбор оптимальных параметров обучения аффиксного тэггера для русского языка; 3) обучение тэггера и его тестирование на выбранных данных.
В ходе экспериментального исследования были обозначены оптимальные параметры для обучения аффиксного тэггера, были реализованы функции предобработки обучающих данных, а также было выяснено, что тэггер гораздо лучше проявляет себя в частеречной разметке, чем в полной морфологической разметке. Практическая ценность данной работы заключается в том, что результаты исследования можно использовать для расширения имеющейся библиотеки обработки естественного языка, разработанной на кафедре математической лингвистики СПбГУ.
В ходе экспериментального исследования были обозначены оптимальные параметры для обучения аффиксного тэггера, были реализованы функции предобработки обучающих данных, а также было выяснено, что тэггер гораздо лучше проявляет себя в частеречной разметке, чем в полной морфологической разметке. Практическая ценность данной работы заключается в том, что результаты исследования можно использовать для расширения имеющейся библиотеки обработки естественного языка, разработанной на кафедре математической лингвистики СПбГУ.