XXI Открытая конференция студентов-филологов в СПбГУ

Опыт создания программы автоматического определения тональности текста (на материале русскоязычных отзывов о ресторанах)

Мария Владимировна Подрядчикова
Докладчик
студент 4 курса
Волгоградский государственный университет

ауд. 193
2018-04-19
13:40 - 13:55

Ключевые слова, аннотация

Предметом исследования являются особенности создания программы автоматического анализа русскоязычного текста на определенную тематику. Материалом исследования послужило 150 русскоязычных отзывов о ресторанах, в которых были выделены объекты тональности и эмоционально окрашенная лексика. На основе данного материала был создан словарь тональной лексики. Завершающим этапом работы стало создание программы автоматического анализа тональности текста, представляющей тональную оценку текста в виде оценки по десятибалльной шкале.

Тезисы

При исследовании отзывов на товары и услуги важной задачей является разработка программ автоматического анализа тональности текста, позволяющих с высокой скоростью получать информацию об отношении потребителя к объекту тональности. В работе описан процесс создания программы автоматического определения тональности русскоязычных отзывов о кофейнях на основе словарного метода, который позволяет выявить в тексте эмоционально окрашенную лексику. 
Первым этапом работы было создание словаря тональной лексики, включающего как собственно эмоционально окрашенную лексику, так и объекты тональности (сущности, о которых высказывается автор отзыва). Объекты тональности были разделены нами на тематические категории (Ассортимент, Атмосфера, Кухня (Еда и Напитки), Обслуживание, Расположение, Цены). Для объектов, не соответствующих ни одной из категорий, была выделена категория «Разное». Словарь был создан при помощи редактора онтологий WebProtege, позволяющего устанавливать качества для единиц онтологии. В нашем случае такими качествами были тональная оценка (негативная, нейтральная, позитивная) и интенсивность тональной оценки (сильная, средняя, слабая). Напр., слово хороший обладает позитивной тональной оценкой и средней интенсивностью оценки, а слово отвратительный — негативной тональной оценкой и сильной интенсивностью оценки.
Второй этап работы включал создание программы на языке программирования Python. Данная программа определяет соотношение позитивной и негативно окрашенной лексики в анализируемом тексте и даёт тексту оценку по десятибалльной шкале.
Пример работы программы:
Отзыв: «Один из моих любимейших Старбакс в Москве!) Вкусно, сравнительно недорого, быстро! Персонал приветливый, помещение уютное».
Результаты работы:
Положительно окрашенные слова: ['приветливый', 'уютный', 'вкусно', 'недорого', 'быстро']
Отрицательно окрашенные слова: []
Оценка положительная: 10/10
На данном этапе исследования важно обратить внимание на расширение словаря (в частности, сейчас словарь содержит не все сленговые слова и окказионализмы) и решение проблемы выявления тонально окрашенных слов, написанных в отзыве ошибочно. Последнюю из проблем мы планируем решить с помощью подключения орфографического модуля, автоматически исправляющего ошибки и опечатки в тексте. Кроме того, в дальнейшей работе при подсчете слов будут учитываться коэффициенты, основанные на интенсивности тональной оценки и позволяющие более точно определять тональность отзыва.
К дальнейшим перспективам работы над программой относятся также отдельный анализ объектов, принадлежащих к каждой из тематических категорий (Ассортимент, Атмосфера и т. д.), с помощью синтаксического анализа текста и определения эмоционально окрашенной лексики, соответствующей только одной из категорий.