Использование машинного обучения для выявления угроз в сообщениях социальных сетей
Ольга Ивановна Веревкина
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
2-у
2014-04-11
15:50 -
16:10
Ключевые слова, аннотация
В данной статье рассматриваются алгоритмы машинного обучения
для создания модели, способной самостоятельно выявлять угрозы в сообщениях
социальных сетей. Для этого используется WEKA — свободное программное обеспечение для анализа
данных, написанное на Java в университете Уайкато. При создании модели используются такие алгоритмы, как Naïve Bayes (Multinominal), SMO, J48 и Random Forest. Для оценки их
эффективности применяется внутренний метод ПО n folds cross validation,
представленный в WEKA.
Тезисы
1. Цель работы – создать модель машинного обучения, способную
распознавать угрозы в сообщениях.
2. Актуальность работы обусловлена возрастающим интересом к данной теме и невозможностью ручного контроля за контентом социальных сетей.
3. Угроза понимается в широком смысле и включает в себя: непосредственную угрозу физической расправой, угрозу совершения суицида, оскорбление, шантаж.
4. Для западных социальных сетей ведутся специальные разработки программного обеспечения, пресекающего рассылку сообщений с неподобающим контентом. Обучение модели является попытки создания аналогичного программного обеспечения для русскоязычных социальных сетей.
5. В данной работе проводится исследование алгоритмов машинного обучения, с целью выбора оптимального для выполнения поставленной задачи.
6. Для создания обучающей выборки используются сообщения из таких социальных сетей как: vkontakte и facebook.
7. Обучающая выборка состоит из 1000 сообщений, а тестовая – из 150.
8. Разметка обучающей выборки производится автором и двумя другими экспертами. Сообщение маркируется как угроза, если все три лингвиста оценили его таковым. Типы угроз между собой не разделяются.
9. При создании входного файла для WEKA производится лемматизация с помощью открытого он-лайн ресурса CST Lemmatizer, предоставляемого университетом Копенгагена.
10. При создании модели используются такие алгоритмы как: Naïve Bayes (Multinominal), SMO, J48 и Random Forest.
11. Для оценки их эффективности применяется внутренний метод ПО n folds cross validation, представленный в WEKA.
2. Актуальность работы обусловлена возрастающим интересом к данной теме и невозможностью ручного контроля за контентом социальных сетей.
3. Угроза понимается в широком смысле и включает в себя: непосредственную угрозу физической расправой, угрозу совершения суицида, оскорбление, шантаж.
4. Для западных социальных сетей ведутся специальные разработки программного обеспечения, пресекающего рассылку сообщений с неподобающим контентом. Обучение модели является попытки создания аналогичного программного обеспечения для русскоязычных социальных сетей.
5. В данной работе проводится исследование алгоритмов машинного обучения, с целью выбора оптимального для выполнения поставленной задачи.
6. Для создания обучающей выборки используются сообщения из таких социальных сетей как: vkontakte и facebook.
7. Обучающая выборка состоит из 1000 сообщений, а тестовая – из 150.
8. Разметка обучающей выборки производится автором и двумя другими экспертами. Сообщение маркируется как угроза, если все три лингвиста оценили его таковым. Типы угроз между собой не разделяются.
9. При создании входного файла для WEKA производится лемматизация с помощью открытого он-лайн ресурса CST Lemmatizer, предоставляемого университетом Копенгагена.
10. При создании модели используются такие алгоритмы как: Naïve Bayes (Multinominal), SMO, J48 и Random Forest.
11. Для оценки их эффективности применяется внутренний метод ПО n folds cross validation, представленный в WEKA.