Использование нейронной сети для автоматического определения тональности отзывов
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Анна Дегтева
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2015-03-13
14:20 -
14:40
Ключевые слова, аннотация
В докладе описывается процедура обучения нейронной сети для
автоматического определения тональности отзывов о ресторанах.
Рассматривается параметризация пространства ресторанных оценок.
Описываются выявленные в текстах лексические тональные маркеры и
обсуждается амбивалентный характер некоторых из них. Приведены
результаты точности оценки тональности при сравнении с «золотым
стандартом» и на материале выборочной совокупности отзывов.
Тезисы
Процедуры автоматического
определения тональности (sentiment mining) стали довольно распространенными в
последнее время. Появились серьезные исследования, в которых описаны основные
проблемы выявления тональности в текстах [Bing Liu, 2010; Pang, Lee 2008]. В
частности, говорится о том, что для решения проблемы необходимо ее
сформулировать и формализовать. Очевидно, что тональные элементы неоднородны,
они включают выражение мнений, чувств и эмоций, при этом тональность неразрывно
связана с субъективностью, что в то же время не исключает определенного анализа
объективных качеств, свойств и проч. Анализ тональности может производится на
уровне отдельных предложений и текстов, в последнем случае тексты подвергаются
тональной классификации: делятся на две противопоставленные группы
отрицательных и положительных. Довольно часто к двум группам добавляют еще третью —
нейтральные. Однако фактически в текстах (в нашем случае, отзывов) выражаются и
положительные, и отрицательные оценки (мнения, эмоции), при этом тот или другой
компонент может превалировать, но иногда они представлены в равновесном виде
как амбивалентная оценка. Назвать их нейтральными нельзя, поскольку они имеют
смешанную (или непроясненную) тональность.
В данной статье мы рассмотрим проблему тональной
классификации отзывов о ресторанах, поскольку они представлены многообразно в
Интернете, что позволяет создать корпус таких текстов. Достаточно часто отзывы
сопровождаются оценками по пятибалльной шкале, причем зачастую оценка
градуируется по ряду параметров, которые могут получать собственную оценку.
Опираясь на имеющиеся отзывы и оценки, мы сформулировали собственные принципы
оценивания, которые положили в основу так называемого пространства тональности.
Проанализировав лексический материал корпуса мы выделили лексические тональные
маркеры как в [Wiebe 2000] и создали «золотой стандарт» размеченных и оцененных
несколькими экспертами отзывов, которые были использованы для обучения
нейронной сети аналогично [Wiebe, Bruce, O’Hara 1999].
Литература:
Bing Liu, Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing, 2nd Edition. Editors: Nitin Indurkhya, Fred J. Damerau. Chapman and Hall/CRC, 2010.
Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008.
Wiebe, J. Learning subjective adjectives from corpora // Proceedings of AAAI, 2000.
Wiebe J., Bruce R. F. , O’Hara T. P. Development and use of a gold standard data set for subjectivity classifications // Proceedings of the Association for Computational Linguistics (ACL), pp. 246–253, 1999.
Литература:
Bing Liu, Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing, 2nd Edition. Editors: Nitin Indurkhya, Fred J. Damerau. Chapman and Hall/CRC, 2010.
Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008.
Wiebe, J. Learning subjective adjectives from corpora // Proceedings of AAAI, 2000.
Wiebe J., Bruce R. F. , O’Hara T. P. Development and use of a gold standard data set for subjectivity classifications // Proceedings of the Association for Computational Linguistics (ACL), pp. 246–253, 1999.