50-я Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

К вопросу о построении модели скрытых сообществ с помощью контекстуализированных тематических моделей

Иван Дмитриевич Мамаев
Докладчик
преподаватель
Boston College

193
2022-03-17
14:45 - 15:05

Ключевые слова, аннотация

Тематическое моделирование; скрытые сообщества; дистрибутивная семантика; корпусная лингвистика; социальные сети; русский язык.
.

Тезисы

Социальные сети – это зеркало современного общества, так как они позволяют оценить направления развития социума по различным признакам. На основании общности этих тенденций выделяют пользовательские сегменты – скрытые сообщества. Под ними принято понимать группировки пользователей, которые, несмотря на отсутствие социальных связей, обладают общими интересами. Многочисленные способы построения моделей скрытых сообществ сводятся к применению двух базовых алгоритмов. Первая группа алгоритмов относится к кластерному анализу: k-means, DBSCAN и др. Вторая группа представлена графовыми методами, например мера Жаккара. Несмотря на их эффективность, они не учитывают лингвистические параметры, в том числе семантическую близость анализируемых текстовых коллекций. Эту лакуну может восполнить алгоритм, сочетающий методы лингвистического и количественного анализа данных. Целью исследования является выявление скрытых связей между пользовательскими постами социальных сетей, которые основаны на общих семантико-тематических параметрах. В настоящем исследовании на основе корпуса русскоязычных постов LiveJournal, опубликованных не ранее января 2020 года, проводятся эксперименты по выявлению скрытых сообществ методами тематического моделирования. Объём корпуса — более 12500 постов (125 пользователей). Процедура построения модели скрытых сообществ может быть сведена к нескольким этапам. Первый этап заключается в обработке корпусных данных с помощью инструмента Stanza, который обеспечивает единый процесс токенизации и лемматизации текстов и удаление стоп-слов, отобранных вручную. Следующий этап — построение тематических моделей и разметка полученных тематических множеств. В области NLP стандартные процедуры тематического моделирования позволяют извлекать значимые тематические наборы слов как из структурированных, так и из неструктурированных текстов. В настоящее время предварительно обученные языковые модели (например, BERT) используются во многих областях автоматической обработки текстов. Тематическое моделирование не является исключением, поэтому в данном исследовании тематические модели создавались на основе библиотеки BERTopic. Последний этап заключается в построении семантической сети пользователей с помощью Easy Linavis и Gephi. Итоговая модель скрытых сообществ представлена в виде группы вершин, связанных рёбрами. Результаты исследования позволяют получить новую информацию о возможных социальных группировках в русскоязычном сегменте социальных сетей. В полученных сообществах можно отслеживать тенденции пользователей и, как следствие, создавать для них соответствующий контент.