«Перевод с языка вопросов на язык ответов»: оценка качества диалоговой системы, основанной на модели нейронного машинного перевода
Елена Александровна Шукшина
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2019-04-16
12:40 -
12:55
Ключевые слова, аннотация
В докладе представлен
опыт создания диалоговой системы на основе модели encoder-decoder, традиционно
использующейся в системах машинного перевода. Вместо пар предложений на разных
языках для обучения модели используются пары реплик из корпуса диалогов Cornell
Movie Dialog Corpus. Обученная система способна поддерживать разговор на общие
темы на английском языке. Приводится подробный анализ качества работы системы с
выявлением главных недостатков и возможных способов их решения.
Тезисы
Целью
исследования являлось создание диалоговой системы генеративного типа,
основанной на LSTM
рекуррентной
нейронной сети и модели encoder-decoder, которая бы могла вести
диалог с пользователем на общие темы на английском языке, а также оценка
качества работы созданной диалоговой системы.
В качестве обучающего корпуса был выбран корпус диалогов из фильмов Cornell Movie Dialog Corpus. В ходе обработки корпус был разделен на отдельные разговоры, каждой нечетной реплике в разговоре была поставлена в соответствие следующая за ней. Полученные пары реплик были разделены на тренировочные и контрольные данные случайным образом в соотношении 80/20.
Для оценки работы диалоговой модели был создан Telegram bot, позволяющий пользователям общаться с чатботом без установки необходимого для его запуска программного обеспечения. После каждого ответа бота пользователям предлагалось оценить ответ по пятибалльной шкале. За день, отведенный для оценки, с ботом поговорили 15 человек и отправили ему 297 сообщений и 232 оценки.
По результатам обработки полученных оценок оказалось, что чатбот чаще всего получает либо очень хорошую оценку (5), либо очень плохую (1). Многие ответы, получившие низкую оценку пользователей, аграмматичны и сложно понимаемы (Б: Maybe you have no choice to maybe by nine nine miles.), другие просто плохо соответствовали вопросу (П: Are you male or female? Б: Yes.). Успешность ответа бота не зависит от темы вопроса и кажется совершенно случайной. Одной из самых больших слабостей бота является то, что он всегда одинаково отвечает на одинаковые реплики и не учитывает предыдущий контекст разговора. Ограниченность бота в этом плане препятствует развитию диалога и поддержанию заинтересованности пользователя в общении.
В качестве обучающего корпуса был выбран корпус диалогов из фильмов Cornell Movie Dialog Corpus. В ходе обработки корпус был разделен на отдельные разговоры, каждой нечетной реплике в разговоре была поставлена в соответствие следующая за ней. Полученные пары реплик были разделены на тренировочные и контрольные данные случайным образом в соотношении 80/20.
Для оценки работы диалоговой модели был создан Telegram bot, позволяющий пользователям общаться с чатботом без установки необходимого для его запуска программного обеспечения. После каждого ответа бота пользователям предлагалось оценить ответ по пятибалльной шкале. За день, отведенный для оценки, с ботом поговорили 15 человек и отправили ему 297 сообщений и 232 оценки.
По результатам обработки полученных оценок оказалось, что чатбот чаще всего получает либо очень хорошую оценку (5), либо очень плохую (1). Многие ответы, получившие низкую оценку пользователей, аграмматичны и сложно понимаемы (Б: Maybe you have no choice to maybe by nine nine miles.), другие просто плохо соответствовали вопросу (П: Are you male or female? Б: Yes.). Успешность ответа бота не зависит от темы вопроса и кажется совершенно случайной. Одной из самых больших слабостей бота является то, что он всегда одинаково отвечает на одинаковые реплики и не учитывает предыдущий контекст разговора. Ограниченность бота в этом плане препятствует развитию диалога и поддержанию заинтересованности пользователя в общении.