XLIX Международная научная филологическая конференция, посвященная памяти Людмилы Алексеевны Вербицкой (1936-2019).

Эксперимент по морфологической разметке корпуса древнерусских текстов СКАТ с помощью нейронных сетей

Ольга Владимировна Митренина
Докладчик
доцент
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Нейросети, морфологическая разметка.

Тезисы

Электронный корпус древнерусской агиографической литературы СКАТ содержит 500 тысяч словоупотреблений, 50 тысяч из которых морфологически размечены вручную. В докладе описывается серия экспериментов по морфологической разметке корпуса с помощью одномерной сверточной нейросети и рекуррентной сети долго-краткосрочной памяти LSTM, c использованием различных конфигураций. Подкорпус из 50 тысяч размеченных словоупотреблений преобразуется в векторное представление и разделяется на три выборки: обучающую, проверочную (для оценки качества обучения) и тестовую (для оценки качества после завершения обучения). Сравниваются попытки обучения в один шаг, когда все теги приписываются во время единого обучения, и в два шага, когда вначале происходит разделение токенов на части речи, а затем для каждой части речи производится отдельное обучение для простановки дополнительных тегов. Сравнивается обучение с ядром свертки в один символ, в два и в три символа. Эксперимент проводится на основе нейросетевой библиотеки Keras для языка программирования Python. Полученные результаты могут быть использованы для автоматической разметки неразмеченной части корпуса СКАТ.