Эксперимент по морфологической разметке корпуса древнерусских текстов СКАТ с помощью нейронных сетей
Ольга Владимировна Митренина
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Нейросети, морфологическая разметка.
Тезисы
Электронный корпус древнерусской агиографической литературы
СКАТ содержит 500 тысяч словоупотреблений, 50 тысяч из которых морфологически
размечены вручную. В докладе описывается серия экспериментов по морфологической
разметке корпуса с помощью одномерной сверточной нейросети и рекуррентной сети
долго-краткосрочной памяти LSTM,
c использованием
различных конфигураций. Подкорпус из 50 тысяч размеченных словоупотреблений преобразуется
в векторное представление и разделяется на три выборки: обучающую, проверочную (для
оценки качества обучения) и тестовую (для оценки качества после завершения
обучения). Сравниваются попытки обучения в один шаг, когда все теги приписываются
во время единого обучения, и в два шага, когда вначале происходит разделение токенов на
части речи, а затем для каждой части речи производится отдельное обучение для
простановки дополнительных тегов. Сравнивается обучение с ядром свертки в один
символ, в два и в три символа. Эксперимент проводится на основе нейросетевой библиотеки Keras для языка программирования Python. Полученные результаты могут быть использованы
для автоматической разметки неразмеченной части корпуса СКАТ.