Автоматический поиск и разметка речевых и дискурсивных формул в интернет-коммуникации: пилотный проект
Александра Сергеевна Масленикова
Докладчик
студент 3 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Ключевые слова, аннотация
Исследование посвящено речевым (РФ) и дискурсивным формулам (ДФ) в интернет-коммуникации, а также разработке метода их автоматического обнаружения и разметки. Был создан алгоритм для сбора, фильтрации и анализа комментариев из Telegram-каналов. Проанализировано 197 комментариев из 70 публикаций канала «Фонтанка SPB Онлайн», выявлено 28 комментариев с ДФ. Наиболее частотными функциями ДФ оказались подтверждение и отрицание. Кроме того, составлены словники, характеризующие состав РФ и ДФ, собранных исследователями из разных источников. Выделены совпадающие и не совпадающие в словниках РФ и ДФ.
Тезисы
Ключевые слова: интернет-коммуникация; дискурсивные формулы; речевые формулы
Доклад представляет собой исследование, посвященное анализу функционирования речевых формул (РФ) и дискурсивных формул (ДФ) в интернет-коммуникации, а также разработке метода их автоматического обнаружения и разметки. Дискурсивные формулы — неоднословные реплики, содержащие реакцию на предшествующий дискурс и составляющие особый подкласс неизменяемых конструкций-предложений. Список дискурсивных формул, представленных в проекте Прагматикон, был собран на основе драматических произведений и детской литературы. Список речевых формул, которые являются схожим функциональным классом, составлялся на материале корпуса устной речи «Один речевой день».
В работе предложен программный код, который с помощью библиотеки Telethon API собирает, анализирует и фильтрует комментарии из Telegram-каналов. Основная задача разработки — выявление РФ и ДФ в текстах комментариев с учетом морфологической целостности слов. Алгоритм работы состоит из следующих этапов: подключение к Telegram API с использованием уникальных учетных данных; сбор сообщений и комментариев из выбранного канала; фильтрация комментариев на основе заранее подготовленного списка РФ/ДФ, загруженного из внешнего файла; разметка обнаруженных формул путем выделения их полужирным шрифтом в тексте комментария и автоматического тегирования функций; сохранение обработанных данных в табличном формате (CSV), включающем исходный комментарий с выделенными ключевыми выражениями, список найденных формул, функции, приписываемые формулам.
В качестве материала для исследования использовались данные из Telegram-канала «Фонтанка SPB Онлайн». В рамках пилотного проекта были собраны комментарии из 70 публикаций, содержащие ДФ. В результате был сформирован подкорпус из 197 комментариев (5068 слов), в которых потенциально могли содержаться ДФ. Анализ показал, что исследуемые формулы встречаются только в 28 комментариях. Было отмечено также, что некоторые из потенциальных ДФ находятся в нетипичных позициях (не в начале реплики), что делает вопрос об их самостоятельности и функциональной нагрузке дискуссионным. Напр., выражение не дай бог всегда выполняет функцию реакции, независимо от своей позиции в тексте, в то время как другие ДФ могут менять свое значение в зависимости от контекста. Среди функций ДФ встретились подтверждение, отрицание, оценка, безразличие, вопрос. Наиболее частотными оказались подтверждение и отрицание: по 10 комментариев соответственно.
Далее было принято решение составить три словника: совпавшие ДФ и РФ, то есть формулы, которые встречаются в обоих списках (68 формул); уникальные ДФ (523 формулы); уникальные РФ (477 формулы). Таким образом выявляются отличия в функционировании формул (РФ и ДФ), собранных на разном материале. Следующий этап работы предполагает анализ словников.
Исследование подтверждает, что интернет-коммуникация представляет собой продуктивную среду для изучения ДФ, так как отражает особенности повседневной неформальной письменной речи. Уточнение актуальности словников, содержащих данные относительно устной повседневной речи, способствует отражению реального состояния языка.
Доклад представляет собой исследование, посвященное анализу функционирования речевых формул (РФ) и дискурсивных формул (ДФ) в интернет-коммуникации, а также разработке метода их автоматического обнаружения и разметки. Дискурсивные формулы — неоднословные реплики, содержащие реакцию на предшествующий дискурс и составляющие особый подкласс неизменяемых конструкций-предложений. Список дискурсивных формул, представленных в проекте Прагматикон, был собран на основе драматических произведений и детской литературы. Список речевых формул, которые являются схожим функциональным классом, составлялся на материале корпуса устной речи «Один речевой день».
В работе предложен программный код, который с помощью библиотеки Telethon API собирает, анализирует и фильтрует комментарии из Telegram-каналов. Основная задача разработки — выявление РФ и ДФ в текстах комментариев с учетом морфологической целостности слов. Алгоритм работы состоит из следующих этапов: подключение к Telegram API с использованием уникальных учетных данных; сбор сообщений и комментариев из выбранного канала; фильтрация комментариев на основе заранее подготовленного списка РФ/ДФ, загруженного из внешнего файла; разметка обнаруженных формул путем выделения их полужирным шрифтом в тексте комментария и автоматического тегирования функций; сохранение обработанных данных в табличном формате (CSV), включающем исходный комментарий с выделенными ключевыми выражениями, список найденных формул, функции, приписываемые формулам.
В качестве материала для исследования использовались данные из Telegram-канала «Фонтанка SPB Онлайн». В рамках пилотного проекта были собраны комментарии из 70 публикаций, содержащие ДФ. В результате был сформирован подкорпус из 197 комментариев (5068 слов), в которых потенциально могли содержаться ДФ. Анализ показал, что исследуемые формулы встречаются только в 28 комментариях. Было отмечено также, что некоторые из потенциальных ДФ находятся в нетипичных позициях (не в начале реплики), что делает вопрос об их самостоятельности и функциональной нагрузке дискуссионным. Напр., выражение не дай бог всегда выполняет функцию реакции, независимо от своей позиции в тексте, в то время как другие ДФ могут менять свое значение в зависимости от контекста. Среди функций ДФ встретились подтверждение, отрицание, оценка, безразличие, вопрос. Наиболее частотными оказались подтверждение и отрицание: по 10 комментариев соответственно.
Далее было принято решение составить три словника: совпавшие ДФ и РФ, то есть формулы, которые встречаются в обоих списках (68 формул); уникальные ДФ (523 формулы); уникальные РФ (477 формулы). Таким образом выявляются отличия в функционировании формул (РФ и ДФ), собранных на разном материале. Следующий этап работы предполагает анализ словников.
Исследование подтверждает, что интернет-коммуникация представляет собой продуктивную среду для изучения ДФ, так как отражает особенности повседневной неформальной письменной речи. Уточнение актуальности словников, содержащих данные относительно устной повседневной речи, способствует отражению реального состояния языка.