Нарратив и полилог в тематических моделях
Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2022-03-17
15:10 -
15:30
Ключевые слова, аннотация
корпусная лингвистика; тематическое моделирование; нарратив; полилог; корпус "Один речевой день"
Тезисы
Современные языковые модели опираются на разнообразные
алгоритмы классического и глубинного машинного обучения, адаптируемые к
условиям работы с корпусами текстов разных типов и жанрово-стилевой
принадлежности. Данные алгоритмы применяются для широкого круга задач обработки
данных – извлечение информации, генерация текстов, индексирование и суммаризация,
перифразирование и т.д. Заметное место среди таких задач занимает определение
тематики текстов в корпусе, которое осуществляется в результате применения
алгоритмов классификации и/или кластеризации. Наряду с традиционными методиками
используется тематическое моделирование, в частности, алгебраические (LSA, nmf и т.д.) и вероятностные модели (pLSA, LDA и т.д.). Эти
модели, хотя и являются самодостаточными, сейчас интегрируются с нейросетевыми
дистрибутивно-семантическими моделями: со статическими моделями Word2Vec (LDA2Vec, Top2Vec и
т.д.) и контекстуализированными моделями ELMo и BERT
(T-BERT, KITTY и т.д.). В задаче тематической
классификации текстов такие гибридные модели, безусловно, представляют
конкуренцию базовым нейросетевым архитектурам.
Одной из частных проблем тематического моделирования
является учет структурных параметров текстов, входящих в состав корпуса. В
частности, было подтверждено, что тематические модели чувствительны к
жанрово-стилевой принадлежности корпусов и позволяют дифференцировать смежные по
типу тексты (например, историческую прозу и документалистику) в тех ситуациях,
когда различия данного рода не регистрируются на уровне статистики словаря. В докладе
обсуждается возможность выявления диагностических признаков, свойственных
нарративу и полилогу, на уровне тематических моделей. Нарративу характерна
сюжетность, при этом темы явно маркируются знаменательной лексикой, тогда как
полилоги, даже если они сосредоточены вокруг целостной ситуации, могут не
содержать лексические маркеры обсуждаемых тем, поскольку в них тематические
маркеры подавляются дискурсивно-прагматическими. Вместе с тем, дисбаланс
словарного состава корпусов нарративов и полилогов не является препятствием для
проведения процедур тематического моделирования, которое подтвердило
возможность сопоставления тематики текстов двух типов. Эксперименты были
проведены на материале корпуса художественной прозы (нарратив) и корпуса «Один
речевой день» (полилог). В докладе представлены результаты тематического моделирования
как классическими, так и гибридными методами.
Исследование выполняется в рамках НИП СПбГУ № 75254082 «Моделирование
коммуникативного поведения жителей российского мегаполиса в социально-речевом и
прагматическом аспектах с привлечением методов искусственного интеллекта» и гранта
РНФ № 21-78-10148 «Моделирование значения слова в индивидуальном языковом
сознании на основе дистрибутивной семантики».