Применение нейронных сетей для определения оценочной функции текста
Сергей Борисович Потемкин
Докладчик
научный сотрудник
Московский государственный университет им. М. В. Ломоносова
Московский государственный университет им. М. В. Ломоносова
Ключевые слова, аннотация
Нейронная сеть, оценочная лексика.
Тезисы
В этом докладе рассказывается о применении небольшой НС с
использованием ограниченного набора данных и языковых моделей. Основная задача,
поставленная перед НС, в нашем случае сводится к следующему: определить оценку,
содержащуюся в предложении, на основе лексического состава и структуры
предложения.
Исходными данными для задачи является сравнительно небольшой
корпус коротких текстов с пометой положительного или отрицательного мнения,
выраженного в этом тексте. Помета давалась экспертами на основе их собственного
опыта и предпочтений. Кроме того, использовался словарь оценочной лексики,
содержащий лексемы с указанием их ориентации (положительной, отрицательной или
нейтральной). Нейронная сеть имеет 256 входных нейронов и только 2 выхода, а
именно один выход для положительного и второй выход для отрицательного мнения.
На вход НС подается последовательность из чисел -1 и 1 в порядке следования эмоционально ориентированных слов в предложении, нейтральные слова опускаются. Считаем, что в нормальном предложении не должно содержаться больше 256 оценочных слов. Если в предложении менее этого количества оценочных слов, оставшиеся места заполняются нулями. Как обычно, весь корпус размеченных текстов разбит на три множества, обучение, валидация и тестирование. В результате работы НС получены следующие результаты: 70% правильно определенной ориентации текстов и, соответственно 30% — неправильно. Дальнейшая работа предполагает переход к структурированным входным данным, т. е. к рассмотрению не отдельных лексем, а синтагм, полученных в результате синтаксического анализа.
На вход НС подается последовательность из чисел -1 и 1 в порядке следования эмоционально ориентированных слов в предложении, нейтральные слова опускаются. Считаем, что в нормальном предложении не должно содержаться больше 256 оценочных слов. Если в предложении менее этого количества оценочных слов, оставшиеся места заполняются нулями. Как обычно, весь корпус размеченных текстов разбит на три множества, обучение, валидация и тестирование. В результате работы НС получены следующие результаты: 70% правильно определенной ориентации текстов и, соответственно 30% — неправильно. Дальнейшая работа предполагает переход к структурированным входным данным, т. е. к рассмотрению не отдельных лексем, а синтагм, полученных в результате синтаксического анализа.