49th International Philological Conference (IPC 2020) in Homage to Professor Ludmila Verbitskaya (1936-2019)

Особенности репрезентации двуязычного болгарско-русского корпуса в Интернете

Андрей Бояджиев
Докладчик
профессор
Софийский университет им. Св. Климента Охридского

Ключевые слова, аннотация

Двуязычный сопоставительный корпус, болгарский язык, русский язык, XML, база данных, интернет-репрезентация.



Тезисы

В докладе затрагивается вопрос о разных возможностях представления лингвистического параллельного корпуса при помощи расширяемого языка разметки (XML). Избрана eXist-db — базовая база данных XML с открытым исходным кодом (https://exist-db.org). Это решение все-в-одном для создания приложений — в нем интегрированы несколько моделей — для поиска (XQuery), для трансформации данных (XSLT), а также возможность визуализации как интернет страница (HTML). Сама лингвистическая аннотация подготавливается при помощи отдельного корпусного редактора Clark, а затем дополнительно обрабатывается. Аннотированы следующие лингвистические феномены — конклюзивы и дубитативы в болгарском и русском языках, возможности выражения категории презумтивности, формальное выражение подлежащих, конструкции дательного падежа в предикативной функции, значение разного рода клитик в двух языках. Сделана попытка интеграции этой аннотации в XML базы данных с возможностью экстрагирования по разным критериям. Код приложения будет распространяться как программное обеспечение с открытым исходным кодом. Эта работа выполнена в рамках болгарско-русского проекта «Еволюция на граматическия строеж на българския и руския език в съпоставителен план: корпусен анализ и формални граматики» (Фонд «Научни изследвания», МОН, Р България, договор № ДНТС/Русия 02/2 от 14.06.2018 г. ).