XXVI Открытая конференция студентов-филологов в СПбГУ

Генерация описаний пространства в виртуальной реальности на основе корпусного моделирования

Светлана Павловна Горовая
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе описывается метод генерации описаний пространства в виртуальной реальности на основе корпусного моделирования. Проведен анализ математических методов и алгоритмов машинного обучения для обработки больших массивов текстовых данных и создания текстовых описаний объектов и сцен виртуального пространства. Результаты экспериментов показывают, что разрабатываемый автором подход позволяет создавать тексты, удовлетворяющие требованиям правильнооформленности, осмысленности, связности.

Тезисы

Ключевые слова: генерация текста; корпусное моделирование; пространственные конструкции; машинное обучение

В докладе описывается гибридный подход к генерации текстов, который может использоваться для создания описаний объектов и сцен виртуального пространства. Для этой цели автор предлагает использовать методы корпусного моделирования, алгоритмы и модели машинного обучения, направленные на генерацию лексических замен — соотнесенных по смыслу слов [Arefjev et al., 2021]. Лексические замены рассматриваются нами как один из приемов перифразирования [Мельчук, 1999]. На первом этапе работы был собран репрезентативный корпус, содержащий тексты произведений художественной литературы приключенческого жанра, путеводителей, житийных текстов, путевых заметок, в которых содержатся описания пространства. В корпус вошло 878 текстов общим объемом 727080 словоупотреблений. На втором этапе производилась морфологическая разметка текстов, выделение ключевых выражений как потенциальных маркеров описаний пространства. Для этих процедур применялись гибридный алгоритм RAKE [Москвина и др., 2017] и библиотека spaCy. Было подтверждено, что собранный корпус действительно содержит локативные конструкции, которые связаны с описанием пространства. На третьем этапе случайным образом были отобраны тестовые примеры текстов с заданным содержанием, проведена токенизация. Для каждого токена генерировался кластер потенциальных замен на основе словаря RuWordNet в обертке для языка программирования Python [Dale, 2022], модели распределенных векторов fastText, моделей cbow word2vec, обученных на корпусах НКРЯ и Википедии для русского языка. Для каждого токена в преобразуемом тексте сохранялась лемма и набор грамматических значений. В отношении вариантов лексических замен проводилась процедура морфологического синтеза (восстановления формы по тегам морфологической разметки). Это обеспечивает правильнооформленность порождаемого варианта текста.
В докладе обсуждаются результаты экспериментов и возможные направления для дальнейшей работы в этой области.
Доклад может быть интересен для исследователей и разработчиков в области компьютерной графики, виртуальной реальности и машинного обучения. Предложенный метод может быть также использован в освоении иностранных языков: сгенерированные тексты могут применяться для создания лакунарных текстов с множественным выбором. Следует отметить, что исследование может быть расширено для работы с другими типами данных, такими как аудио- и видеофайлы, что также может быть полезно для создания более реалистичных описаний объектов и сцен виртуального пространства.

Литература:
Мельчук И. А. Опыт теории лингвистических моделей «Смысл <=>Текст». М., 1999.
Москвина А. Д., Ерофеева А. Р., Митрофанова О. А., Харабет Я. К. Автоматическое выделение ключевых слов и словосочетаний из русскоязычного корпуса текстов с помощью алгоритма RAKE // Труды Международной конференции «Корпусная лингвистика—2017. СПб., 2017.
Arefjev N. V., Bykov D. A. An Interpretable Approach to Lexical Semantic Change Detection with Lexical Substitution // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference «Dialogue». Issue 20: Основной том. М., 2021.
Dale D. A Python wrapper for the RuWordNet thesaurus. URL: https://github.com/avidale/python-ruwordnet (дата обращения: 10.03.2023).