О создании подкорпуса «ранних тестов» на калмыцком языке: постановка проблемы
Евгений Владимирович Бембеев
Докладчик
старший научный сотрудник
Калмыцкий институт гуманитарных исследований РАН
Калмыцкий институт гуманитарных исследований РАН
184
2015-03-10
15:00 -
15:30
Ключевые слова, аннотация
В рамках развития Национального корпуса калмыцкого
языка, важной задачей является создание подкорпуса «ранних текстов», написанных
на старокалмыцком языке (на «тодо бичиг» — ‘ясном письме’). Эта работа
сопряжена с рядом проблем. Во-первых, графическая
система, на которой писались эти тексты, — «тодо бичиг», не получила еще
должной компьютерной обработки. Во-вторых, для автоматической обработки
текстов необходимо создать парадигмы именных и глагольных словоизменительных типов. В-третьих,
необходимо выявить и оцифровать письменные памятники на «ясном письме».
Тезисы
Актуальной задачей нашего общества является сохранение культурно-исторического наследия
предков. Способ ее решения – перевод источников и архивных документов в
цифровую форму. В свете этого весьма важным является создание
подкорпуса «ранних текстов», написанных на старокалмыцком языке (на «тодо
бичиг» – ‘ясном письме’), в рамках Национального корпуса калмыцкого языка
[Куканова и др. 2012].
Работа по созданию электронных коллекций
старокалмыцких письменных памятников сопряжена с рядом проблем. Во-первых, графическая система, на которой писались эти тексты, –
«тодо бичиг» – еще не получила должной компьютерной обработки.
В старописьменном языке почти все графемы в
различных позициях (в начале, середине и в конце) пишутся по-разному. Все
графические начертания одной буквы являются аллографами (глифами) и,
следовательно, обозначениями аллофонов одной и той же фонемы. Если, к примеру, символы монгольского письма «худма
бичиг» уже получили кодировку UNICODE и имеется
пакет программ с использованием этого письма (Windows,
Microsoft Office),
то для «тодо бичиг» все еще отсутствует кодировка некоторых символов в соответствии со
стандартами UNICODE.
Во-вторых, для автоматической обработки текстов необходимо сформировать парадигмы именных и
глагольных словоизменительных
типов старописьменного
калмыцкого языка, создать морфологическую модель языка, без
которой невозможно разработать программное обеспечение.
Создание электронных коллекций
старокалмыцких письменных памятников предполагает наличие базы данных
лексического ядра, или словаря ранних текстов, необходимого для правильного
распознавания линейного потока. Для решения данной задачи создается «Словарный
модуль калмыцкого языка», который представляет собой электронную
лексикографическую базу данных (на основе лексикографических источников XVIII и первой половины XX
вв.) и впоследствии составит основу для разработки распознающей программы
и формализованного описания морфологии старописьменного языка. Уже ведется оцифровка имеющихся словарей, приведение их к единообразию в оформлении
словарной статьи. Для этого разработан универсальный
транслитерационный алфавит, позволяющий унифицировать письменные памятники
калмыцкого языка XVIII–XIX вв. В-третьих, следующей важной задачей является поиск, оцифровка (т.е. факсимильное копирование)
письменных памятников на «ясном письме», которые хранятся в собраниях
рукописных памятников России, Монголии, КНР, Германии, Дании и др. [Бембеев
2012]. Необходимо также провести анализ рукописных и печатных источников XVII–XIX
вв., дать их хронологические, жанровые, палеографические и лексические
характеристики и т. д. Все это в дальнейшем облегчит ввод и
обработку текстов и изображений, а также работу систем оптического распознавания, информационного поиска и автоматического индексирования документов.
В-четвертых, отдельную проблему составит
качество обнаруженных рукописей, что в свою очередь может затруднить интерпретацию того или иного плохо сохранившегося графического знака, адекватную
передачу графических особенностей памятника (например, необычную лигатуру,
нечеткое начертание «диакритики» и др.)
В результате
выполнения проекта на базе исследований
источников калмыцкого языка XVIII–XIX вв. будут получены новые научные данные. Изучение ранних текстов носит
ретроспективный исторический характер и охватывает самый широкий круг вопросов
— от текстологии и диалектологии до сравнительно-исторического изучения
словоформ, словосочетаний и т.д., что, как показывает опыт, может привести к
реконструкции ойратских и общемонгольских древностей на вербальном уровне. (Литература Бембеев Е.В. Коллекции рукописей на
старокалмыцком (ойратском) языке XVII–XIX вв. в свете компьютерной обработки:
постановка проблемы// Информационные технологии и письменное наследие.
El’Manuscript-2012: Материалы IV межд. науч. конф. Петрозаводск, Ижевск, 2012. С. 31–34.