Особенности репрезентации двуязычного болгарско-русского корпуса в Интернете
Андрей Бояджиев
Докладчик
профессор
Софийский университет им. Св. Климента Охридского
Софийский университет им. Св. Климента Охридского
Ключевые слова, аннотация
Двуязычный
сопоставительный корпус, болгарский язык, русский язык, XML, база данных, интернет-репрезентация.
Тезисы
В докладе затрагивается вопрос о разных возможностях представления
лингвистического параллельного корпуса при помощи расширяемого языка разметки (XML). Избрана eXist-db — базовая база данных XML с открытым исходным кодом (https://exist-db.org). Это решение все-в-одном
для создания приложений — в нем интегрированы несколько моделей — для поиска
(XQuery), для трансформации данных (XSLT), а также возможность визуализации как
интернет страница (HTML). Сама лингвистическая аннотация подготавливается при
помощи отдельного корпусного редактора Clark, а затем дополнительно
обрабатывается. Аннотированы следующие лингвистические феномены — конклюзивы и
дубитативы в болгарском и русском языках, возможности выражения категории презумтивности,
формальное выражение подлежащих, конструкции дательного падежа в предикативной
функции, значение разного рода клитик в двух языках. Сделана попытка интеграции
этой аннотации в XML базы данных с возможностью экстрагирования по разным критериям. Код приложения
будет распространяться как программное обеспечение с открытым исходным кодом. Эта работа выполнена в рамках
болгарско-русского проекта «Еволюция на граматическия строеж на българския и
руския език в съпоставителен план: корпусен анализ и формални граматики» (Фонд «Научни изследвания», МОН, Р България, договор № ДНТС/Русия 02/2 от 14.06.2018 г. ).