Разработка и оценка системы автоматического распознавания и транслитерации текстов на классическом тибетском языке
Анна Владимировна Мурашкина
Докладчик
студент 4 курса
Новосибирский государственный университет
Новосибирский государственный университет
Ключевые слова, аннотация
Старопечатные документы на тибетском языке являются ценным наследием буддизма и народов Тибета. В данной работе рассматриваются существующие open-source решения для распознавания и транслитерации тибетского текста, предлагается набор размеченных данных и специализированные метрики оценки точности для оцифровки документов.
Тезисы
Ключевые слова: транслитерация; тибетский язык; OCR; NLP; Document Intelligence
Старопечатные документы на тибетском языке — ценное историко-культурное наследие, веками передаваемое по наследству народами Тибета. Эти рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Однако со временем, под воздействием природных и антропогенных факторов бумажные носители подвергаются физическому разрушению, что ведет к утрате информации и ограничивает доступ к этим материалам [Lamu, 2012].
Одним из наиболее надежных способов сохранения и систематизации исторических документов является их оцифровка [Ma et al., 2020]. Процесс включает не только создание цифровых изображений, но и разработку методов автоматического распознавания и транслитерации текста, что позволит упростить доступ к данным, повысить эффективность их анализа и интеграции в современные информационные системы.
В Тибетском фонде рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН находится около 70000 единиц хранения, требующих оцифровки. В рамках сотрудничества Института вычислительных технологий СО РАН и ИМБТ СО РАН поставлена цель создания программного комплекса, способного автоматически обрабатывать тексты этих документов.
Работа, представленная в рамках настоящего доклада, посвящена исследованию, разработке и практической реализации программного комплекса по распознаванию и транслитерации текста со старопечатных тибетских документов. Для этого были проанализированы существующие open-source решения, включая методы оптического распознавания символов (OCR), модели на основе глубинного обучения и алгоритмы транслитерации. Для объективной оценки их качества разработан набор размеченных данных, включающий изображения оригинальных текстов и их корректные текстовые представления. Важной частью исследования является разработка системы оценки точности распознавания. Опираясь на прецеденты постановки подобных задач [Beshirov, 2024], был предложен набор метрик, адаптированных к специфике работы с языковым материалом.
Литература:
Beshirov A. et al. Post-OCR Text Correction for Bulgarian Historical Documents, 2024. URL: https://arxiv.org/abs/2409.00527 (дата обращения: 16.03.2025).
Lamu Y. Protection status of domestic ancient Tibetan manuscripts and literatures // Journal of Ethnology. 2012. Vol. 3. №6. P. 54—58.
Ma L., Long C., Duan L. et al. Segmentation and recognition for historical Tibetan document images // IEEE Access. 2020. Vol. 8. P. 52641—52651.
Старопечатные документы на тибетском языке — ценное историко-культурное наследие, веками передаваемое по наследству народами Тибета. Эти рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Однако со временем, под воздействием природных и антропогенных факторов бумажные носители подвергаются физическому разрушению, что ведет к утрате информации и ограничивает доступ к этим материалам [Lamu, 2012].
Одним из наиболее надежных способов сохранения и систематизации исторических документов является их оцифровка [Ma et al., 2020]. Процесс включает не только создание цифровых изображений, но и разработку методов автоматического распознавания и транслитерации текста, что позволит упростить доступ к данным, повысить эффективность их анализа и интеграции в современные информационные системы.
В Тибетском фонде рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН находится около 70000 единиц хранения, требующих оцифровки. В рамках сотрудничества Института вычислительных технологий СО РАН и ИМБТ СО РАН поставлена цель создания программного комплекса, способного автоматически обрабатывать тексты этих документов.
Работа, представленная в рамках настоящего доклада, посвящена исследованию, разработке и практической реализации программного комплекса по распознаванию и транслитерации текста со старопечатных тибетских документов. Для этого были проанализированы существующие open-source решения, включая методы оптического распознавания символов (OCR), модели на основе глубинного обучения и алгоритмы транслитерации. Для объективной оценки их качества разработан набор размеченных данных, включающий изображения оригинальных текстов и их корректные текстовые представления. Важной частью исследования является разработка системы оценки точности распознавания. Опираясь на прецеденты постановки подобных задач [Beshirov, 2024], был предложен набор метрик, адаптированных к специфике работы с языковым материалом.
Литература:
Beshirov A. et al. Post-OCR Text Correction for Bulgarian Historical Documents, 2024. URL: https://arxiv.org/abs/2409.00527 (дата обращения: 16.03.2025).
Lamu Y. Protection status of domestic ancient Tibetan manuscripts and literatures // Journal of Ethnology. 2012. Vol. 3. №6. P. 54—58.
Ma L., Long C., Duan L. et al. Segmentation and recognition for historical Tibetan document images // IEEE Access. 2020. Vol. 8. P. 52641—52651.