45th International Philological Research Conference

Оценка тональности отзывов с использованием автоматически составленного словаря

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Григорий Теймуразович Букия
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Екатерина Владимировна Еникеева
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2016-03-18
16:00 - 16:20

Ключевые слова, аннотация

В докладе обсуждаются результаты экспериментов по автоматическому составлению тонального словаря, используемого в процедурах сентиментного анализа. Особенностью нашего подхода является применение авторской метрики близости для ранжирования тональных лексем и конструкций. В исследовании были использованы русскоязычные корпусы текстов отзывов на фотоаппараты, сформированные на основе данных сервиса «Яндекс.Маркет» и различных интернет-магазинов.

Тезисы

Разработка систем сентиментного анализа — трудоемкий процесс, предполагающий тональную разметку корпусов текстов; составление словаря тональных слов; реализацию алгоритмов машинного обучения для автоматической классификации текстов. Исследования по оценке тональности русскоязычных текстов, в частности, представлены в материалах соревнования SetniRuEval [1]. Опыт показывает, что успешность работы систем сентиментного анализа во многом определяется тем, каким образом составляется тональный словарь. В нашем исследовании предлагается новый подход к решению этой задачи. Для автоматической оценки тональности отзыва традиционно используются тональные словари, содержащие как общие тональные слова («хороший», «удобно», «нравиться»), так и относящиеся к специальной области («мыльный», «нерезко», «мажет»). Каждому слову или словосочетанию приписывается оценка (например, от нуля до единицы), характеризующая его положительную или отрицательную окраску. Как правило, такие словари составляются вручную. Авторами предлагается метод извлечения оценочных слов из корпуса отзывов, имеющих жесткую структуру: «достоинства» и «недостатки». Лексемы и конструкции, состоящие из заданных грамматических форм, ранжируются на основании связи с одним из двух полюсов — достоинствами или недостатками. Эта связь оценивается с помощью точного критерия Фишера [2], характеризующего степень зависимости случайных величин, то есть вероятность того, что отзыв с данным словом относится к достоинствам/недостаткам. Для извлечения конструкций, состоящих из нескольких лексем, используется обобщение меры взаимной информации [3] с помощью которого каждой лексеме ставится в соответствие «облако» сочетающихся с ней слов. С помощью полученного словаря ранжируется тестовый корпус отзывов на заданную тему (не имеющий жесткой структуры). Затем оценки, полученные автоматически, сравниваются с эталонными оценками, расставленными авторами отзывов. В проведенных экспериментах в качестве «обучающего» корпуса для построения тонального словаря используется корпус отзывов на фотоаппараты с сервиса «Яндекс.Маркет». Было извлечено около 1,5 тыс. оценочных слов и сочетаний, которые затем использовались для оценки отзывов с сайтов различных интернет-магазинов.

Список литературы:
[1] Loukachevitch N. V. et al. SentiRuEval: Testing Object-Oriented Sentiment Analysis Systems in Russian // Proc. Dialog 2015
[2] Stefanowitsch A., Gries S. T. Collostructions: Investigating the interaction of words and constructions // International journal of corpus linguistics. Vol. 8. № 2. 2003. P. 209–243.
[3] Bukia G., Protopopova E., Mitrofanova O. A corpus-driven estimation of association strength in lexical constructions // Proceedings of the AINL-ISMW FRUCT, 2015. P. 147–152.