LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Специальные корпусы текстов в мультимодальных тематических моделях

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2023-03-15
16:25 - 16:45

Ключевые слова, аннотация

Тематическое моделирование; специальные тексты; мультимодальность.

В докладе представлены результаты экспериментов по тематическому моделированию специальных корпусов текстов на русском языке. Рассматриваются мультимодальные тематические модели, предполагающие учет дополнительных признаков, используемых при обучении моделей: расширение униграммных тем за счет конструкций, обобщение тем с помощью использования автоматически сгенерированных меток тем, учет хронологических параметров документов корпуса и т.д.

Тезисы

Исследование семантической организации текстов находится в области пересечения компьютерной лингвистики и филологического анализа речевых произведений. Определение компонентов содержания текста, значимых для его адекватного понимания, достижимо в результате применения процедур семантической компрессии (свертки) текста: выделения ключевых слов и выражений, реферирования, тематической классификации и кластеризации. В этом отношении высок потенциал мультимодальных тематических моделей, позволяющих соотнести с корпусом текстов набор тем (рубрик), которые объединяют близкие по значению слова и словосочетания, характеризующие кластеры сходных документов.
Выбор алгоритмов тематического моделирования обуславливается параметрами корпусов текстов: объем в словоупотреблениях и леммах, число документов, средняя длина документов, язык текстов, источник текстов, тип разметки корпуса, ожидаемая тематика текстов, их жанрово-стилистическая принадлежность, приложения результатов тематического моделирования. Как правило, ограничения, накладываемые на параметры корпуса, сводят решаемую задачу к моделированию специализированных корпусов текстов или корпусов для специальных целей: например, корпусов текстов определенной предметной области, жанра, авторства, хронологического периода, для определенной целевой аудитории и т.д.
Традиционные подходы к построению тематических моделей включают в себя алгебраические (LSA/LSI, nmf и т.д.) и вероятностные модели (pLSA, LDA и т.д.), которые, в свою очередь, успешно комбинируются со статическими (word2vec, fastText и т.д.) и контекстуализированными (ELMo, BERT и т.д.) предсказывающими моделями распределенных векторов, что позволяет повысить объяснительную силу результирующих описаний корпусов текстов. Как известно, тематическая структура корпуса в вероятностных тематических моделях задается смесью вероятностных распределений: тема определяется дискретным распределением на множестве слов, тексты описываются дискретным распределением на множестве тем, а сам корпус представляется как набор слов, выбранных независимо и случайно из смеси распределений. В ходе тематического моделирования происходит восстановление компонентов смеси по выборке. В фокусе нашего исследования находятся алгоритмы LSA, nmf, LDA, BERTopic, реализованные в программных библиотеках для языка Python (MALLET [https://github.com/senderle/topic-modeling-tool], Scikit-learn [https://scikit-learn.org/stable/index.html], genism [https://radimrehurek.com/gensim/], tomotopy [https://bab2min.github.io/tomotopy], BERTopic [https://pypi.org/project/bertopic/] и т.д.).
Мультимодальность обеспечивается введением дополнительных параметров в тематическую модель, которые в итоге повышают ее интерпретируемость.
Учет коллокаций или конструкций позволяет перейти от простой словарной (униграмной) модели, игнорирующей синтагматические отношения в тексте, к n-граммным тематическим моделям, темы в которых представляют комбинацию отдельных слов и устойчивых словосочетаний. В нашем исследовании оцениваются возможности расширения униграммных тематических моделей за счет ключевых выражений, выделяемых с помощью алгоритмов различных типов: статистических (TF-IDF, Log-Likelihood, PMI, t-score, Хи-квадрат), гибридных (лингвостатистических) (RAKE, PullEnti, RuTermExtract), с использованием машинного обучения (KeyBERT). Интеграция ключевых выражений в тематические модели производится в ходе проверки гипотезы о том, что как ключевые выражения, так и слова-тематизаторы образуют особые тексты-примитивы, отражающие результат семантической свертки отдельного текста или корпуса текстов в целом.
Характерной особенностью стандартных тематических моделей является случайный способ упорядочения тем и отсутствие меток, обобщающих содержание тем. Данный недостаток компенсируется с помощью процедур автоматического назначения меток тем, в ходе которых можно использовать слова-тематизаторы, выявляемые в текстах исходного корпуса или предсказываемые дистрибутивно-семантическими моделями, обученными на этом корпусе, либо же кандидаты в метки, сгенерированные из внешних источников, к которым относятся формальные онтологии, специальные базы данных (wordnet-подобные словари), энциклопедии (Википедия, Викисловарь и т.д.), поисковые системы (Яндекс, Google и т.д.). В нашем исследовании производится сравнение методов автоматического назначения меток тем, основанных на использовании внутренних и внешних по отношению к моделируемому корпусу источников данных. Выбор наилучшего метода назначения меток тем производится с учетом специфики корпуса, он будет разным для научных и художественных текстов, новостных текстов и текстов блогов и т.д.
К числу мультимодальных также относятся динамические тематические модели, учитывающие хронологические рамки сегментов корпуса; автор-тематические модели, обеспечивающие тематическую атрибуцию текстов с учетом авторства; управляемые тематические модели, генерирующие темы с учетом заранее назначаемых ключевых выражений; иерархические модели, позволяющие ранжировать темы с точки зрения взаимной близости и т.д.
В докладе иллюстрируется построение мультимодальных тематических моделей на материале исследовательских специализированных корпусов текстов для русского языка.
Исследование выполняется в рамках НИП СПбГУ № 75254082 «Моделирование коммуникативного поведения жителей российского мегаполиса в социально-речевом и прагматическом аспектах с привлечением методов искусственного интеллекта» и гранта РНФ № 21-78-10148 «Моделирование значения слова в индивидуальном языковом сознании на основе дистрибутивной семантики».