LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Разработка чат-бота о расстройствах аутистического спектра

Виктория Игоревна Фирсанова
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2023-03-15
17:40 - 18:00

Ключевые слова, аннотация

Чат-бот; расстройства аутистического спектра; машинное обучение.

Исследование посвящено вопросам, возникшим при разработке системы ответов на вопросы о расстройствах аутистического спектра. В исследовании описано последовательное применение двух подходов к извлечению ответов на вопросы с использованием современных моделей Transformer и русскоязычного набора данных для машинного чтения об аутизме, который был разработан мной для этого исследования.

Тезисы

Исследование посвящено вопросам, возникшим при разработке системы ответов на вопросы о расстройствах аутистического спектра. В ходе разработки интеллектуальной системы мною было замечено, что проблемы в работе модели возникают по одной из двух причин. Первая причина заключается в несовершенстве современных моделей искусственного интеллекта. Вторая причина заключается в особенностях наборов данных с закрытой предметной областью, которые могут использоваться для социально-медицинской сферы. Например, модели искусственного интеллекта могут генерировать ложную информацию, провоцирующую заблуждения и негативные эмоции, что опасно для их использования в инклюзивном образовании или других сферах. В свою очередь, доступные социально-медицинские наборы данных часто отличаются ограниченным объемом доступных данных. Поэтому важно убедиться в том, что они представляют надежную, полезную информацию, в противном случае — готовиться к получению низких метрик производительности модели, поскольку более крупные модели, содержащие большее количество параметров обучения, обычно показывают более высокую производительность. То есть чем больше параметров имеет модель машинного обучения, чем крупнее наборы данных, на которых она обучается, тем более высокие метрики оценки мы сможем получить с ее помощью.
Принимая во внимание два источника проблем, я последовательно применяю два подхода к извлечению ответов на вопросы, используя современные модели Transformer и специальный русскоязычный набор данных машинного чтения об аутизме, который был создан мной для этого исследования. Набор даных создавался с помощью краудсорсинговой платформы Yandex.Toloka. Основным методом машинного обучения, который использовался мной для настоящего исследования, было трансферное обучение. Лучше по производительностью  модели была кросс-лингвистическая модель типа Transformer, которая использует более 100 языков для обучения, легко "заучивает" лингвистические структуры типологически различных языков и, в результате, позволяет добиваться высоких метрик оценки для работы с данными на русском языки.
В своем исследовании я не ограничиваюсь работой с алгоритмами машинного обучения. После тонкой настройки кросс-лингвистической модели XLM-RoBERTa (так называется обучение предварительно обученной модели машинного обучения на определенном наборе данных с последующей настройкой параметров модели) выяснилось, что эта модель позволяет добиться наиболее высоких результатов. Это мотивировало меня использовался XLM-RoBERTa для следующих экспериментов. В основе этих экспериментов лежала работа с обучающими данными, то есть с созданным мной для настоящего исследования набором данных. Во время экспериментов, ориентированных на данные, мной использовалась модель машинного обучения XLM-RoBERTa и работу с дизайном набора данных. Под дизайном я подразумеваю структуру и объем созданного набора данных. Например, мною сокращалась длина ответов на вопросы (структура набора данных предполагала множество вопросов о расстройствах аутистического спектра и ответов к ним, извлеченных из текстов, которые были найдены мной на информационном сайте об инклюзии и расстройствах аутистического спектра).
Также мною предпринимались попытки создавать несколько ответов на каждый вопрос, то есть если ответ мог быть сформулирован различными способами без изменения смысла текста, в набор данных добавлялись альтернативные версии ответов на вопрос. Первоначально мой набор данных содержал около пяти процентов вопросов, которые модель машинного обучения должна учиться игнорировать в процессе обучения на тренировочной выборке данных. Например, пользователи склонны задавать чат-ботам и иным диалоговым системам вопросы, которые не имеют смысловой нагрузки, но имеют цель развлечь пользователя. К таким вопросам может относиться просьба рассказать об искусственном интеллекте. Модель, направленная на то, чтобы отвечать на вопросы о расстройствах аутистического спектра, не должна давать информацию об искусственном интеллекте. Это может дезинформировать пользователя. Итак, в одной из версий мною было принято решение исключить эти 5% лишних вопросов для того, чтобы узнать, как они влияют на техническую производительность модели машинного обучения. Также мною была принята попытатка сокращения объема набора данных в два раза, чтобы узнать, какое влияние размер набора данных оказывает на производительность моделей машинного обучения.
Модификации набора данных позволили достичь более высоких метрических показателей. Исследование показывает, какие аспекты модели важнее, если мы хотим построить психологически безопасную диалоговую систему. К таким аспектам относится объем набора данных для машинного обучения, наличие альтернативных ответов на вопросы, длина ответа на вопрос в символах, а также длина ответа на вопрос в словах, наличие вопросов, которые могут сделать задачу для модели машинного обучения труднее, например, наличие таких вопросов, которые модель должна учиться игнорировать, и другие характеристики данных для обучения моделей.