XXIII Открытая конференция студентов-филологов в СПбГУ

Классификация сообщений наркозависимых в социальных сетях методами машинного обучения

Виктория Игоревна Фирсанова
Докладчик
студент 4 курса
НИУ ВШЭ (СПб)

Ключевые слова, аннотация

Исследование посвящено анализу интернет-текстов, тематика которых связана с проблемами наркозависимости. В ходе работы нам удалось обучить две нейросети, каждая из которых представляет одну из моделей обработки естественного языка (Bag of Words и Word Embeddings), сравнить результаты их работы и положить начало созданию нейросетевого классификатора групп и публичных страниц «ВКонтакте» по наличию в них контента, связанному с запрещенными психотропными и психоактивными веществами.

Тезисы

Цель исследования: выявление ключевых особенностей языка наркозависимых в социальных сетях посредством анализа результатов работы автоматического классификатора текстов. Основная задача: создание классификатора публикаций социальной сети «ВКонтакте» методами машинного обучения. 
На основе исследования сленга наркозависимых людей в социальных сетях (Фирсанова В. И. Функционирование жаргона наркозависимых в социальных сетях, 2019), мы нашли такие сообщества во «ВКонтакте», где записи оставляют преимущественно люди, столкнувшиеся с проблемой употребления запрещенных на территории РФ психоактивных и психотропных веществ. На базе официального API «ВКонтакте» мы написали бот на языке Python для выгрузки публикаций из групп и публичных страниц данной социальной сети. С его помощью мы получили массив данных из описанных выше групп, который получил индекс «1».
В той же социальной сети мы нашли сообщества, тематика которых не связана с проблемой нашей работы, однако язык публикаций богат арго, просторечными выражениями и обсценной лексикой. Эти характеристики обеспечили относительную равномерность распределения лингвистических признаков в наших данных. С помощью того же бота мы выгрузили публикации из этих сообществ, и присвоили полученному массиву индекс «0».
Общий массив данных (23 983 публикации; 1 636 998 слов) включает как публикации с индексом «1», так и публикации с индексом «0». Записи внутри массива были перемешан в случайном порядке и разделены на две выборки: обучающую (80% данных) и проверочную (20%). На базе этих данных на платформе Google Colaboratory нам удалось обучить две нейросети на основе разных моделей для обработки естественного языка (Bag of Words и Word Embeddings) и сравнить результаты их работы. 
Результаты проведенной работы позволят нам создать классификатор публичных страниц и групп в социальной сети «ВКонтакте», на основе которого можно будет определить, имеет ли тематика данного сообщества отношение к проблемам употребления, распространения или изготовления психоактивных и психотропных веществ, запрещенных на территории РФ. Анализ результатов работы нейросетевых классификаторов поможет выявить такие особенности онлайн-дискурса людей, страдающих наркозависимостью, на которые языковед или психолог может не обратить внимания. Поскольку исследование затрагивает остросоциальную проблему, дискуссия о возможностях практического применения его результатов требует предварительной консультации с экспертами в соответствующих областях.