XXVII Открытая конференция студентов-филологов в СПбГУ

Генерация текста по изображению на основе русскоязычных моделей

Светлана Павловна Горовая
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

13о
2024-04-22
17:00 - 17:20

Ключевые слова, аннотация

Разработка модели автоматического описания изображений на русском языке стоит на стыке компьютерного зрения и обработки языка, представляя передовое направление в искусственном интеллекте. Наша работа фокусируется на создании алгоритма, способного распознавать объекты и их взаимосвязи, атрибуты, действия на изображении, применяя сложные языковые модели для генерации описаний. Результатом стала система, генерирующая краткие и подробные описания, обогащающая понимание визуального контента, открывая новые перспективы в науке и технологиях.

Тезисы

Ключевые слова: описание изображений; генеративные модели; дистрибутивная семантика; машинное обучение; обработка естественного языка

В условиях экспоненциального роста объемов визуальной информации, автоматическое описание изображений на русском языке представляет собой значимую исследовательскую задачу. В нашем исследовании мы фокусируемся на разработке алгоритмов обработки естественного языка, интегрированных с готовыми моделями компьютерного зрения, с целью создания точных и понятных текстовых описаний изображений. Такой подход позволяет осуществить глубокий анализ визуального контента и его последующую интерпретацию в естественном языке. Описание изображения является мультимодальным преобразованием реальности, т. к. переводит визуальную информацию в текстовую. Были проведены исследования по изучению грамматики описаний изображений в русском языке [Кобозева, 2000]. В работе активно используются принципы дистрибутивной семантики для анализа смысловых связей между словами. Применение генеративных языковых моделей, в частности GPT и BERT, которые обучаются на обширных текстовых корпусах, позволяет создавать связные и грамматически правильные тексты, соответствующие заданному контексту и стилю. Особенное внимание было уделено иерархическому подходу для создания развёрнутого описания изображения, включающего все детали [A Hierarchical Approach for Generating Descriptive Image Paragraphs, 2017]. Важным аспектом описания изображение является вычленение пространственных отношений между объектами на изображении и их точное отражение в генерируемом тексте. Для приближения результатов генерации к естественному языку был использован банк предложных конструкций [Банк предложных конструкций] и квантитативная грамматика русского языка [Квантитативная грамматика русских предложных конструкций]. Создание корпуса описаний изображений стало ключевым этапом разработки, требующим тщательного отбора и аннотирования изображений. Сбор данных из различных источников обеспечил модель широким спектром визуального контента для обучения, что существенно улучшило качество генерируемых описаний.
Наше исследование вносит вклад в развитие методов автоматического описания изображений на русском языке, предлагая новые подходы к интеграции компьютерного зрения и обработки естественного языка. Результаты исследования не только способствуют улучшению взаимодействия между человеком и машиной, но и открывают новые направления для дальнейшего изучения мультимодального понимания и интерпретации информации.

Литература:
Кобозева И. М. Грамматика описания пространства // Языки пространств. Логический анализ языка. М., 2000.
Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei. A Hierarchical Approach for Generating Descriptive Image Paragraphs, Stanford University, 2017. 
Банк предложных конструкций. URL: https://predlogy.streamlit.app/ (дата обращения: 29.02.2024). 
Квантитативная грамматика русских предложных конструкций. URL: https://vintagentleman.github.io/qt_prep_gram/ (дата обращения: 29.02.2024).