XXVIII Открытая конференция студентов-филологов в СПбГУ

Автоматический поиск и разметка речевых и дискурсивных формул в интернет-коммуникации: пилотный проект

Александра Сергеевна Масленикова
Докладчик
студент 3 курса
Национальный исследовательский университет «Высшая школа экономики»

Ключевые слова, аннотация

Исследование посвящено речевым (РФ) и дискурсивным формулам (ДФ) в интернет-коммуникации, а также разработке метода их автоматического обнаружения и разметки. Был создан алгоритм для сбора, фильтрации и анализа комментариев из Telegram-каналов. Проанализировано 197 комментариев из 70 публикаций канала «Фонтанка SPB Онлайн», выявлено 28 комментариев с ДФ. Наиболее частотными функциями ДФ оказались подтверждение и отрицание. Кроме того, составлены словники, характеризующие состав РФ и ДФ, собранных исследователями из разных источников. Выделены совпадающие и не совпадающие в словниках РФ и ДФ.

Тезисы

Ключевые слова: интернет-коммуникация; дискурсивные формулы; речевые формулы

Доклад представляет собой исследование, посвященное анализу функционирования речевых формул (РФ) и дискурсивных формул (ДФ) в интернет-коммуникации, а также разработке метода их автоматического обнаружения и разметки. Дискурсивные формулы — неоднословные реплики, содержащие реакцию на предшествующий дискурс и составляющие особый подкласс неизменяемых конструкций-предложений. Список дискурсивных формул, представленных в проекте Прагматикон, был собран на основе драматических произведений и детской литературы. Список речевых формул, которые являются схожим функциональным классом, составлялся на материале корпуса устной речи «Один речевой день».
В работе предложен программный код, который с помощью библиотеки Telethon API собирает, анализирует и фильтрует комментарии из Telegram-каналов. Основная задача разработки — выявление РФ и ДФ в текстах комментариев с учетом морфологической целостности слов. Алгоритм работы состоит из следующих этапов: подключение к Telegram API с использованием уникальных учетных данных; сбор сообщений и комментариев из выбранного канала; фильтрация комментариев на основе заранее подготовленного списка РФ/ДФ, загруженного из внешнего файла; разметка обнаруженных формул путем выделения их полужирным шрифтом в тексте комментария и автоматического тегирования функций; сохранение обработанных данных в табличном формате (CSV), включающем исходный комментарий с выделенными ключевыми выражениями, список найденных формул, функции, приписываемые формулам.
В качестве материала для исследования использовались данные из Telegram-канала «Фонтанка SPB Онлайн». В рамках пилотного проекта были собраны комментарии из 70 публикаций, содержащие ДФ. В результате был сформирован подкорпус из 197 комментариев (5068 слов), в которых потенциально могли содержаться ДФ. Анализ показал, что исследуемые формулы встречаются только в 28 комментариях. Было отмечено также, что некоторые из потенциальных ДФ находятся в нетипичных позициях (не в начале реплики), что делает вопрос об их самостоятельности и функциональной нагрузке дискуссионным. Напр., выражение не дай бог всегда выполняет функцию реакции, независимо от своей позиции в тексте, в то время как другие ДФ могут менять свое значение в зависимости от контекста. Среди функций ДФ встретились подтверждение, отрицание, оценка, безразличие, вопрос. Наиболее частотными оказались подтверждение и отрицание: по 10 комментариев соответственно.
Далее было принято решение составить три словника: с
овпавшие ДФ и РФ, то есть формулы, которые встречаются в обоих списках (68 формул); уникальные ДФ (523 формулы); уникальные РФ (477 формулы). Таким образом выявляются отличия в функционировании формул (РФ и ДФ), собранных на разном материале. Следующий этап работы предполагает анализ словников.
Исследование подтверждает, что интернет-коммуникация представляет собой продуктивную среду для изучения ДФ, так как отражает особенности повседневной неформальной письменной речи. Уточнение актуальности словников, содержащих данные относительно устной повседневной речи, способствует отражению реального состояния языка.