XVII Международная конференция студентов-филологов

Использование машинного обучения для выявления угроз в сообщениях социальных сетей

Ольга Ивановна Веревкина
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

2-у
2014-04-11
15:50 - 16:10

Ключевые слова, аннотация

В данной статье рассматриваются алгоритмы машинного обучения для создания модели, способной самостоятельно выявлять угрозы в сообщениях социальных сетей. Для этого используется WEKA — свободное программное обеспечение для анализа данных, написанное на Java в университете Уайкато. При создании модели используются такие алгоритмы, как Naïve Bayes (Multinominal), SMO, J48 и Random Forest. Для оценки их эффективности применяется внутренний метод ПО n folds cross validation, представленный в WEKA.

Тезисы

1.    Цель работы – создать модель машинного обучения, способную распознавать угрозы в сообщениях.
2.    Актуальность работы обусловлена возрастающим интересом к данной теме и невозможностью ручного контроля за контентом социальных сетей.
3.    Угроза понимается в широком смысле и включает в себя: непосредственную угрозу физической расправой, угрозу совершения суицида, оскорбление, шантаж.
4.    Для западных социальных сетей ведутся специальные разработки программного обеспечения, пресекающего рассылку сообщений с неподобающим контентом. Обучение модели является попытки создания аналогичного программного обеспечения для русскоязычных социальных сетей.
5.    В данной работе проводится исследование алгоритмов машинного обучения, с целью выбора оптимального для выполнения поставленной задачи.
6.    Для создания обучающей выборки используются сообщения из таких социальных сетей как: vkontakte и facebook.
7.    Обучающая выборка состоит из 1000 сообщений, а тестовая – из 150.
8.    Разметка обучающей выборки производится автором и двумя другими экспертами. Сообщение маркируется как угроза, если все три лингвиста оценили его таковым. Типы угроз между собой не разделяются.
9.    При создании входного файла для WEKA производится лемматизация с помощью открытого он-лайн ресурса CST Lemmatizer, предоставляемого университетом Копенгагена.
10.  При создании модели используются такие алгоритмы как: Naïve Bayes (Multinominal), SMO, J48 и Random Forest.
11.  Для оценки их эффективности применяется внутренний метод ПО n folds cross validation, представленный в WEKA.