Эмоциональная классификация текстов методами машинного обучения с использованием лингвистических признаков
Иван Евгеньевич Гурков
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2024-04-27
15:35 -
15:50
Ключевые слова, аннотация
В докладе анализируется применение методов машинного обучения в контексте эмоциональной классификации текстов. Проведён анализ значимости лингвостатистических признаков и их корреляционной взаимосвязи. Эксперименты проведены на данных звонков в экстренные службы с использованием различных моделей машинного обучения, проводится их оценка с помощью стандартных метрик. Результаты указывают на ограниченную эффективность традиционных методов, что подчёркивает необходимость дополнительных подходов в виде векторных моделей для улучшения точности классификации эмоционального содержания текста.
Тезисы
Ключевые слова: анализ тональности; эмоциональные маркеры; машинное обучение
Стремительное развитие больших языковых моделей (LLMs), создаваемых на основе современных нейросетевых архитектур, заставляет исследователей по-новому взглянуть на соотношение алгоритмов классического и глубинного обучения при решении задач компьютерной лингвистики. Одной из таких задач является определение эмоциональной и тональной окраски текста.
В широком смысле, анализ тональности текста (sentiment analysis), заключается в выявлении мнения его автора по поводу предмета, обсуждаемого в тексте. Анализ тональности подразумевает классификацию текста по двум или трём категориям: положительная, отрицательная и нейтральная. Эмоциональная классификация предполагает более узкую классификацию по заранее определённым эмоциональным категориям, например, радость, гнев и т. д. Для обучения моделей классификации текстов по эмоциональным категориям потребовалось решить вопрос о выборе значимых лингвистических признаков текстов. Отбор признаков производился с учётом современных работ в области автоматической обработки текста, в частности [Blinova, 2022]. В данной статье авторы рассматривают несколько групп типичных лингвостатистических признаков, проверяют внутригрупповую корреляцию для уменьшения размерности признакового пространства, и обучают на оставшихся признаках классификационную модель сложности текста. Поскольку эти признаки являются универсальными и используются в других задачах, например, в определении авторства текста и его жанрово-стилевой принадлежности, мы предполагаем, что и применительно к исследованию эмоциональности они сохранят свою релевантность. Некоторые метрики были исключены из анализа в рамках данной работы, к примеру, признак количества знаков, важный в анализе сложности текста, но не столь существенный для анализа тональности разговорной речи. Эксперименты проводились на основе набора данных, включающего записи звонков в экстренные службы, нарезанные на относительно короткие отрывки от 1 до 12 секунд, а также сделанные вручную транскрипты. Общее количество отрывков: 3572. Эмоциональная разметка проводится по следующим категориям: грусть, злость, радость, удивление, волнение, раздражение, недовольство, обида, обречённость, страх.
Были проверены следующие модели: дерево решений, случайный лес, наивный байесовский классификатор, k-ближайших соседей, ридж-классификатор, классификация гауссовских процессов, машина опорных векторов и CatBoost. Проводилась оценка результатов классификации с помощью метрик точности, полноты, аккуратности и F-меры. Лучшие результаты показала модель CatBoost. Значение ROC-AUC 0.625 говорит о том, что модель показывает способность обнаруживать закономерности в данных и хорошо справляется с задачей классификации по сравнению с другими исследованными моделями.
Данное исследование демонстрирует, что модели машинного обучения на классических лингвистических признаках показывают умеренную эффективность на задаче эмоциональной классификации текстов и должны быть дополнены информацией из векторных эмбеддинг моделей.
Литература:
Blinova O. Complexity metrics of Russian legal texts: selection, use, initial efficiency evaluation // Computational Linguistics and Intellectual Technologies Dialogue. Moscow, 2022. P. 1017—1028.
Стремительное развитие больших языковых моделей (LLMs), создаваемых на основе современных нейросетевых архитектур, заставляет исследователей по-новому взглянуть на соотношение алгоритмов классического и глубинного обучения при решении задач компьютерной лингвистики. Одной из таких задач является определение эмоциональной и тональной окраски текста.
В широком смысле, анализ тональности текста (sentiment analysis), заключается в выявлении мнения его автора по поводу предмета, обсуждаемого в тексте. Анализ тональности подразумевает классификацию текста по двум или трём категориям: положительная, отрицательная и нейтральная. Эмоциональная классификация предполагает более узкую классификацию по заранее определённым эмоциональным категориям, например, радость, гнев и т. д. Для обучения моделей классификации текстов по эмоциональным категориям потребовалось решить вопрос о выборе значимых лингвистических признаков текстов. Отбор признаков производился с учётом современных работ в области автоматической обработки текста, в частности [Blinova, 2022]. В данной статье авторы рассматривают несколько групп типичных лингвостатистических признаков, проверяют внутригрупповую корреляцию для уменьшения размерности признакового пространства, и обучают на оставшихся признаках классификационную модель сложности текста. Поскольку эти признаки являются универсальными и используются в других задачах, например, в определении авторства текста и его жанрово-стилевой принадлежности, мы предполагаем, что и применительно к исследованию эмоциональности они сохранят свою релевантность. Некоторые метрики были исключены из анализа в рамках данной работы, к примеру, признак количества знаков, важный в анализе сложности текста, но не столь существенный для анализа тональности разговорной речи. Эксперименты проводились на основе набора данных, включающего записи звонков в экстренные службы, нарезанные на относительно короткие отрывки от 1 до 12 секунд, а также сделанные вручную транскрипты. Общее количество отрывков: 3572. Эмоциональная разметка проводится по следующим категориям: грусть, злость, радость, удивление, волнение, раздражение, недовольство, обида, обречённость, страх.
Были проверены следующие модели: дерево решений, случайный лес, наивный байесовский классификатор, k-ближайших соседей, ридж-классификатор, классификация гауссовских процессов, машина опорных векторов и CatBoost. Проводилась оценка результатов классификации с помощью метрик точности, полноты, аккуратности и F-меры. Лучшие результаты показала модель CatBoost. Значение ROC-AUC 0.625 говорит о том, что модель показывает способность обнаруживать закономерности в данных и хорошо справляется с задачей классификации по сравнению с другими исследованными моделями.
Данное исследование демонстрирует, что модели машинного обучения на классических лингвистических признаках показывают умеренную эффективность на задаче эмоциональной классификации текстов и должны быть дополнены информацией из векторных эмбеддинг моделей.
Литература:
Blinova O. Complexity metrics of Russian legal texts: selection, use, initial efficiency evaluation // Computational Linguistics and Intellectual Technologies Dialogue. Moscow, 2022. P. 1017—1028.