Распознавание текстов в изданиях кириллического церковнославянского шрифта
Алёна Александровна Смирнова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
В докладе описывается создание модуля по распознаванию текста изданий XIX в., в которых используется церковнославянский шрифт. В качестве
примера для работы системы взята коллекция болгарских книг и периодических
изданий (1806—1878) Национальной
библиотеки имени святых Кирилла и Мефодия, расположенной в Софии. В
ходе работы был собран набор образцов изображений букв и надстрочных знаков
церковнославянского алфавита, а также создан модуль для конвертации изображения
с текстом церковнославянского шрифта в редактируемый формат.
Тезисы
Ключевые слова:
распознавание текста; церковнославянский шрифт;
старопечатные книги XIX
в.
В архивах библиотек и музеев России,
Болгарии, Чехии и других стран хранится множество старопечатных книг, содержащих тексты, напечатанные церковнославянской кириллицей. Например, в Национальной библиотеке имени свв.
Кирилла и Мефодия, расположенной в Болгарии, находится коллекция книг XIX в.,
включающая около 1700 наименований в почти 10 тысячах томов. Эта
коллекция оцифрована (то есть хранится в виде наборов изображений страниц),
однако этих книг нет в формате электронного текста. Существующие системы
распознавания способны преобразовать в редактируемый формат изображения с
текстами, напечатанными буквами различных алфавитов, однако среди них нет церковнославянской кириллицы.
В ходе работы с помощью
различных алгоритмов был реализован модуль, способный распознать церковнославянский кириллический шрифт.
В качестве примера для обучения взята коллекция болгарских старопечатных книг и
периодических изданий (1806—1878),
в которых используется церковнославянский шрифт. Она доступна на сайте
библиотеки имени свв. Кирилла и Мефодия в виде отсканированных изображений.
Преобладающую часть этой коллекции составляет богослужебно-учебная литература,
а также переводная и оригинальная художественная. Выбор этой коллекции обусловлен ее большим
размером и разнообразием входящих в нее текстов. На основе 12 выбранных книг («Мудрост
добраго Рихарда» (1837), «Кратко начертание на всеобщата история» (1836),
«Слово, изказаное заради умирание» (1814) и др.) было составлено два набора
данных: из образцов сегментированных изображений букв и образцов изображений надстрочных
знаков. Первый набор содержит примеры для 37 символов церковнославянского
алфавита, а также трех знаков препинания. Второй набор состоит из примеров девяти надстрочных знаков (острое, тяжелое и облеченное ударение, придыхание, титло и
т. д.). Общее количество образцов в первом наборе —
более девяти тысяч, во втором —
более полутора тысяч. Реализованный модуль способен отличить один символ от другого
с вероятностью в 99%.
Результатом работы предложенного модуля является файл, содержащий текст, полученный из изображения страницы. При этом для его
корректного отображения используется специальный шрифт для набора старопечатных
богослужебных книг и современных старообрядческих изданий. Для оценки
результатов распознавания было отобрано 30 фрагментов различных книг из
коллекции, точность результата для них варьируется в диапазоне от 89% до 99%.