XXVII Открытая конференция студентов-филологов в СПбГУ

Определение сходства текстов научно-популярных статей на русском языке

Наталья Александровна Сафонова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

13о
2024-04-22
16:00 - 16:20

Ключевые слова, аннотация

Работа посвящена тематическому моделированию — важному инструменту обработки текстовых данных. В статье рассматриваются как классические, так и современные методы тематического моделирования: LDA (латентное размещение Дирихле), BERTtopic. Тематический анализ был проведен на материале корпуса научно-популярных статей на русском языке. Мы оценили эффективность работы и сравнили качество результатов тематической кластеризации различных моделей. Полученные данные показывают, что алгоритмы тематического моделирования могут быть использованы для анализа содержательной структуры текстов.

Тезисы

Ключевые слова: автоматическая обработка текста; машинное обучение; тематическое моделирование; кластерный анализ текстов

Тематическая кластеризация — это процесс группировки объектов на основе их сходства по темам. Применение методов машинного обучения для анализа тематической структуры текстов позволяет кластеризовать информацию, объединить близкие по содержанию тексты. Автоматический анализ тем может служить удобным инструментом при информационном поиске, анализе структуры текстов, автоматическом извлечении информации, а также упростить анализ большого объема данных и внести вклад в совершенствование моделей искусственного интеллекта. Целью доклада является сравнение различных алгоритмов тематической кластеризации. Были поставлены следующие задачи: изучить принципы работы тематических моделей, собрать корпус статей на основе новостей научно-популярных порталов, применить методы автоматического определения тем, сравнить результаты, полученные разными алгоритмами. Был проведен эксперимент по тематическому анализу корпуса научно-популярных текстов для сравнения эффективности различных моделей. Полученные результаты мы сопоставляли с темами, которые были приписаны авторами статей вручную. В состав корпуса вошли 800 новостных материалов на русском языке за 2016—2024 гг., размещенных на портале «Наука и жизнь», объем корпуса составил более 1 миллиона словоупотреблений. Корпус был сбалансирован тематически, поскольку мы использовали текстовые материалы из нескольких рубрик издания: «новости», «события», «факт дня». В ходе работы потребовалось провести предобработку корпуса, которая включала токенизацию, лемматизацию и исключение стоп-слов. Это было необходимо по причине того, что классические алгоритмы выделения тем работают по принципу bag-of-words («мешок слов»), который подразумевает, что модель не учитывает грамматический и синтаксический критерии, но опирается на частотность вхождения слова в документ. Результаты проведенного эксперимента показали, что классические модели тематической кластеризации уступают по эффективности и качеству более современным инструментам.