XXVIII Открытая конференция студентов-филологов в СПбГУ

Создание биографического датасета русских прозаиков 1930—2000 гг. с помощью ChatGPT

Алиса Евгеньевна Урих
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики» (филиал в Санкт-Петербурге)

Ключевые слова, аннотация

В работе предпринимается попытка создать биографии русских прозаиков 1930—2000 гг., используя языковую модель ChatGPT-4o. Тестирование чат-бота позволило выявить возможности и ограничения работы модели с текстовыми данными. Сгенерированные описания были оформлены в виде таблиц и собраны в датасет, содержащий заранее определенную структуру. Получившийся набор данных был использован для создания Telegram-бота, который может рассказывать о выбранном пользователем писателе, опираясь на информацию из базы.  

Тезисы

Ключевые слова: ChatGPT; датасет; биография; чат-бот; русские прозаики

Методы искусственного интеллекта являются перспективными и наиболее быстро развивающимися технологиями нашего времени. К ним относятся, в частности, большие языковые модели, в том числе и ChatGPT. Особое внимание лингвистов привлекает функционал чат-бота, связанный с работой с текстовыми данными, в частности — с генерацией текста по заранее написанному запросу.
Главная задача этого исследования состоит в том, чтобы проверить, как модель справится с созданием биографических описаний русских прозаиков 1930—2000 гг. В начале работы была создана структура, 30 пунктов, которые должны быть описаны чат-ботом в будущей таблице, напр., ФИО писателя, дата рождения, место рождения, псевдоним (если есть) и др. Эти поля были сформированы в результате анализа биографических описаний из «Краткой литературной энциклопедии» и исследования Т. Ю. Шерстиновой [Шерстинова, 2019]. Из 1000 прозаиков были выбраны те, у которых есть проверенная статья в Википедии, для того, чтобы данные получились наиболее репрезентативными. Затем ChatGPT должен был сформировать и заполнить таблицу, используя готовую структуру и информацию из предложенной статьи конкретного автора.
Далее представлен краткий пример работы модели, описание биографии Л. Н. Толстого:
ФИО писателя Лев Николаевич Толстой
Литературный псевдоним (если есть) Л. Н., Л. Н. Т
Другие имена, под которыми публиковался автор (если есть)
Дата рождения (по старому календарю) 28 августа 1828 года
Дата рождения (по новому календарю) 9 сентября 1828 года
Место рождения Ясная Поляна, Крапивенский уезд, Тульская губерния, Российская империя
Семья Родился в дворянской семье. Отец — Николай Ильич Толстой, мать — Мария Николаевна Волконская. Был четвертым из пяти детей.
Детство и юность Рано потерял родителей: мать умерла, когда ему было два года, отец — когда ему было девять лет. Воспитывался родственниками. Детство и юность провел в Ясной Поляне и Казани.
Образование Поступил в Казанский университет на факультет восточных языков, затем перевелся на юридический факультет, но не завершил обучение.
Личная жизнь В 1862 году женился на Софье Андреевне Берс. Их брак продлился 48 лет.
Этот эксперимент позволил не только протестировать работу модели с биографическими статьями авторов, но и выявить возможности и ограничения, связанные с генерацией текста по запросу пользователя. В результате был собран датасет, содержащий биографические описания более 500 русских прозаиков.

Литература:
Шерстинова Т. Ю. Биографическая база данных русских писателей (к созданию корпуса русского рассказа XX века) // Труды международной конференции «Корпусная лингвистика — 2019». СПб., 2019. С. 439—447.