Открытый корпус вепсского и карельского языков (ВепКар): архитектура и его возможности
Александра Павловна Родионова
Докладчик
научный сотрудник
Институт языка, литературы и истории КарНЦ РАН
Институт языка, литературы и истории КарНЦ РАН
199 MS Teams
2022-03-19
12:00 -
12:25
Ключевые слова, аннотация
Открытый корпус вепсского и карельского языков (ВепКар); многоязычный
корпус; полуавтоматическая лингвистическая разметка; корпус текстов;
лемма
Тезисы
Корпус
ВепКар обладает следующими характеристиками:
–
является многоязычным корпусом: включает тексты на вепсском и карельском
языках, вепсские и карельские словари имеют толкования на русском и частично
английском языках;
–
включает тексты различной стилистической и жанровой принадлежности;
– является полнотекстовым корпусом: разметка
текстов выполняется полностью и поиск осуществляется по всему массиву текстов;
–
предоставляет пользователям доступ к полным текстам документов, то есть корпус
ВепКар можно рассматривать как открытую электронную библиотеку.
Корпус
(совокупность) текстов является центральным блоком ВепКара. На настоящий момент
он содержит свыше 3000 текстов (более 1, 1 миллиона словоупотреблений). В
перечень источников для пополнения корпуса входят: опубликованные образцы
карельской и вепсской диалектной речи, фольклорные, художественные и переводные
тексты, материалы газет и альманахов на карельском и вепсском языках и мн. др.
Процесс наполнения корпуса текстами является непрерывным.
Словарь
является не менее важным блоком, обеспечивающим работу с корпусом текстов.
Словарь корпуса содержит свыше 60 тысяч словарных статей и около 2,5 миллионов
словоформ. Толкования слов в словаре приводятся на русском и отчасти на
английском языке, хотя есть возможность давать толкования на вепсском, наречиях
карельского и финском языках. Поиск лемм в рамках словаря возможен по языковой
и диалектной принадлежности, по частям речи, грамматическим признакам, а также по
лексико-семантическим категориям.
Представленные в корпусном менеджере специальные
модули, связывающие корпус и словарь, призваны обеспечивать необходимым
языковым материалом лингвистические исследования. Важнейшей составляющей
корпуса ВепКар является наличие полуавтоматической лингвистической разметки
(программа определяет варианты значения слова и его грамматических
характеристик). Ее появление стало возможным в результате создания в 2019–2021
гг. генераторов словоформ для вепсского, ливвиковского и собственно карельского
подкорпусов. Наличие данных генераторов позволило также разработать инструмент
сложного лексико-грамматического поиска по текстам, что особенно важно в
процессе решения проблемы преодоления морфологической омонимии в целях создания
инструмента автоматической морфологической разметки и морфоанализатора. Инструменты,
представленные в корпусе ВепКар сегодня, уже открывают уникальные возможности
для решения целого ряда лингвистических задач в области исследования лексики и
грамматики карельского и вепсского языков. Материалы корпуса используются в
процессе разработки новых словарей и грамматик, а также в процессе
редактирования правил и норм новописьменных вариантов исследуемых языков, а
также в качестве базы в процессе обучения карельскому и вепсскому языкам.