Автоматическое выделение аспектов и их тональных маркеров с помощью тематического моделирования (на материале русскоязычного корпуса текстов отзывов о фотоаппаратах)
Дарья Алексеевна Андреева
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-19
13:25 -
13:40
Ключевые слова, аннотация
В докладе описывается проблема применения тематических моделей в задачах автоматического анализа отзывов. В рамках исследования был проведен эксперимент по построению тематической модели LDA для корпуса текстов отзывов на фотоаппараты. Была проверена гипотеза о том, что будут выделяться темы, содержащие аспекты оцениваемых объектов.
Тезисы
С увеличением объемов текстовой информации, касающейся бытовой сферы, в сети Интернет задача автоматического анализа отзывов привлекла к себе внимание широкого круга специалистов. Для проведения процедуры сентиментого анализа очень важно понимать, какой характеристике товара или услуги приписывается оценка. В терминах сентиментного анализа такая характеристика называется аспектом. Так, в примере «iPhone’s call quality is good, but its battery life is short» есть два аспекта: качество связи, которое оценивается положительно, и аккумулятор, оценка которого негативная. Таким образом, правильное выявление аспектов играет важную роль в сентиментном анализе. Большинство современных подходов к анализу отзывов в той или иной мере опирается на тональные словари для классификации отзывов. И хотя методы, основанные на машинном обучении, показывают хорошие результаты, их успех во многом зависит от объема и качества обучающих данных. Ручная аннотация таких коллекций трудозатратна, поэтому разработка методов автоматического выделения аспектов и оценочных слов, ассоциируемых с ними, является актуальной проблемой для исследований. В последнее время к решению данной проблемы активно привлекается тематическое моделирование. Тематическое моделирование нашло широкое применение в задачах поиска документов, фильтрации спама, анализа новостных потоков и социальных сетей, автоматической классификации и ранжирования документов.
Современные алгоритмы построения тематических моделей опираются на алгебраические модели текста, такие как SVM, LSA, а также на вероятностные модели, среди которых наибольшей популярностью пользуются вероятностный латентно-семантический анализ pLSA, латентное размещение Дирихле LDA.
Целью нашего исследования было проверить, как работает модель LDA на материале русскоязычных текстов отзывов, и проанализировать лексическое наполнение полученных тем с точки зрения названий аспектов и оценочной лексики. Для реализации алгоритма LDA в нашей работе использовалась открытая библиотека для тематического моделирования genism, реализованная на языке программирования Python. Материалом нашего исследования послужил корпус отзывов на фотоаппараты, собранный из интернет-ресурса Яндекс.Маркет.
В ходе работы были получены леммы, описывающие достоинства и недостатки фотоаппаратов и их компонентов, т. е. аспектов. Большая часть оценочной лексики состояла из слов, характеризующих в равной степени как фотоаппараты, так и их аспекты, напр., добротный, хороший, отличный, классный. Тем не менее для некоторых аспектов удалось выделить описания именно для них.
Проведенные эксперименты свидетельствуют о возможности использования модели LDA для автоматического выделения аспектов с целью улучшения систем сентиментного анализа.