44th International Philological Research Conference

Использование нейронной сети для автоматического определения тональности отзывов

Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Анна Дегтева
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет

193
2015-03-13
14:20 - 14:40

Ключевые слова, аннотация

В докладе описывается процедура обучения нейронной сети для автоматического определения тональности отзывов о ресторанах. Рассматривается параметризация пространства ресторанных оценок. Описываются выявленные в текстах лексические тональные маркеры и обсуждается амбивалентный характер некоторых из них. Приведены результаты точности оценки тональности при сравнении с «золотым стандартом» и на материале выборочной совокупности отзывов.

Тезисы

Процедуры автоматического определения тональности (sentiment mining) стали довольно распространенными в последнее время. Появились серьезные исследования, в которых описаны основные проблемы выявления тональности в текстах [Bing Liu, 2010; Pang, Lee 2008]. В частности, говорится о том, что для решения проблемы необходимо ее сформулировать и формализовать. Очевидно, что тональные элементы неоднородны, они включают выражение мнений, чувств и эмоций, при этом тональность неразрывно связана с субъективностью, что в то же время не исключает определенного анализа объективных качеств, свойств и проч. Анализ тональности может производится на уровне отдельных предложений и текстов, в последнем случае тексты подвергаются тональной классификации: делятся на две противопоставленные группы отрицательных и положительных. Довольно часто к двум группам добавляют еще третью — нейтральные. Однако фактически в текстах (в нашем случае, отзывов) выражаются и положительные, и отрицательные оценки (мнения, эмоции), при этом тот или другой компонент может превалировать, но иногда они представлены в равновесном виде как амбивалентная оценка. Назвать их нейтральными нельзя, поскольку они имеют смешанную (или непроясненную) тональность. В данной статье мы рассмотрим проблему тональной классификации отзывов о ресторанах, поскольку они представлены многообразно в Интернете, что позволяет создать корпус таких текстов. Достаточно часто отзывы сопровождаются оценками по пятибалльной шкале, причем зачастую оценка градуируется по ряду параметров, которые могут получать собственную оценку. Опираясь на имеющиеся отзывы и оценки, мы сформулировали собственные принципы оценивания, которые положили в основу так называемого пространства тональности. Проанализировав лексический материал корпуса мы выделили лексические тональные маркеры как в [Wiebe 2000] и создали «золотой стандарт» размеченных и оцененных несколькими экспертами отзывов, которые были использованы для обучения нейронной сети аналогично [Wiebe, Bruce, O’Hara 1999].

Литература:
Bing Liu, Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing, 2nd Edition. Editors: Nitin Indurkhya, Fred J. Damerau. Chapman and Hall/CRC, 2010.
Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008.
Wiebe, J. Learning subjective adjectives from corpora // Proceedings of AAAI, 2000.
Wiebe J., Bruce R. F. , O’Hara T. P. Development and use of a gold standard data set for subjectivity classifications // Proceedings of the Association for Computational Linguistics (ACL), pp. 246–253, 1999.