К вопросу о построении модели скрытых сообществ с помощью контекстуализированных тематических моделей
Иван Дмитриевич Мамаев
Докладчик
преподаватель
Boston College
Boston College
193
2022-03-17
14:45 -
15:05
Ключевые слова, аннотация
Тематическое моделирование; скрытые сообщества; дистрибутивная семантика; корпусная лингвистика; социальные сети; русский язык.
.
.
Тезисы
Социальные сети – это зеркало современного общества, так как они позволяют
оценить направления развития социума по различным признакам. На основании
общности этих тенденций выделяют пользовательские сегменты – скрытые
сообщества. Под ними принято понимать группировки пользователей, которые,
несмотря на отсутствие социальных связей, обладают общими интересами.
Многочисленные способы построения моделей скрытых сообществ сводятся
к применению двух базовых алгоритмов. Первая группа алгоритмов относится
к кластерному анализу: k-means, DBSCAN и др. Вторая группа
представлена графовыми методами, например мера Жаккара. Несмотря на
их эффективность, они не учитывают лингвистические параметры, в том
числе семантическую близость анализируемых текстовых коллекций. Эту лакуну
может восполнить алгоритм, сочетающий методы лингвистического и
количественного анализа данных. Целью исследования является выявление
скрытых связей между пользовательскими постами социальных сетей,
которые основаны на общих семантико-тематических параметрах. В настоящем
исследовании на основе корпуса русскоязычных постов LiveJournal,
опубликованных не ранее января 2020 года, проводятся эксперименты по
выявлению скрытых сообществ методами тематического моделирования. Объём корпуса
— более 12500 постов (125 пользователей). Процедура построения модели скрытых
сообществ может быть сведена к нескольким этапам. Первый этап заключается в
обработке корпусных данных с помощью инструмента Stanza, который обеспечивает
единый процесс токенизации и лемматизации текстов и удаление стоп-слов,
отобранных вручную. Следующий этап — построение тематических моделей и разметка
полученных тематических множеств. В области NLP стандартные процедуры
тематического моделирования позволяют извлекать значимые тематические наборы слов
как из структурированных, так и из неструктурированных текстов. В настоящее
время предварительно обученные языковые модели (например, BERT) используются во
многих областях автоматической обработки текстов. Тематическое моделирование не
является исключением, поэтому в данном исследовании тематические модели
создавались на основе библиотеки BERTopic. Последний этап заключается в
построении семантической сети пользователей с помощью Easy Linavis и
Gephi. Итоговая модель скрытых сообществ представлена в виде группы
вершин, связанных рёбрами. Результаты исследования позволяют получить
новую информацию о возможных социальных группировках в русскоязычном
сегменте социальных сетей. В полученных сообществах можно отслеживать
тенденции пользователей и, как следствие, создавать для них соответствующий
контент.