Как различается восприятие ключевых выражений в письменном и устном текстах
Дарья Дмитриевна Гусева
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
В докладе приведены результаты экспериментов по восприятию ключевых выражений в письменном и устном текстах. Исследование проведено на материале аудиозаписей выступлений русскоязычных лекторов проекта «Постнаука». Для экспериментов по автоматической и экспертной разметке ключевых выражений были отобраны аудиозаписи дикторов мужского и женского пола. В работе представлен сравнительный анализ результатов выделения ключевых выражений вручную и с помощью автоматических методов различных типов (статистических, гибридных, с использованием машинного обучения).
Тезисы
Ключевые слова: автоматическое выделение ключевых выражений; экспертная разметка; фонетически выделенные слова; научный стиль речи
Доклад посвящён проблеме исследования особенностей восприятия ключевых слов и словосочетаний в письменном и устном текстах на русском языке. Теоретическую основу исследования составляют труды А. С. Штерн, Л. В. Сахарного, Л. Н. Мурзина, Н. Д. Светозаровой, Е. В. Ягуновой и других специалистов в области восприятия речи.
Ключевые выражения — самостоятельные языковые единицы, в совокупности выступающие как особый тип текста по отношению к исходному. Ключевые слова или словосочетания несут в себе наиболее важную информацию о тексте, представляя её в сжатом формате. Опираясь на них, можно установить содержание исходного текста.
Цель исследования заключается в анализе различий, возникающих при восприятии одного и того же текста, представленного в письменном и устном формате. Предполагается, что восприятие содержания письменного и устного текста различается на уровне выделения ключевых выражений.
Материалом исследования являются аудиозаписи выступлений русскоязычных лекторов проекта «Постнаука». Лекции принадлежат научному функциональному стилю и сопровождены транскриптами в виде связного текста с постредактированием.
Автоматическое выделение ключевых слов и словосочетаний в письменном тексте включало в себя этапы лемматизации и фильтрации по стоп-словам и проводилось с использованием различных алгоритмов — статистических (Хи-квадрат, Log-Likelihood, PMI-test, T-test, TF-IDF), гибридных (RAKE, RuTermExtract, SpaCy), с использованием машинного обучения (KeyBERT).
Ручная разметка ключевых выражений была получена в результате проведения серии перцептивных экспериментов. В рамках эксперимента на материале письменного текста аудиторы должны были после прочтения текста выделить 10 ключевых выражений, ранжируя их от самого важного к менее важному. В эксперименте на материале устного текста аудиторы выполняли аналогичное задание, но после прослушивания аудиозаписи. В инструкции также было установлено ограничение на тип выражений — аудиторы могли выбрать в качестве ключевых выражений униграммы, биграммы или триграммы.
Процедура обработки результатов исследования заключалась в сопоставлении результатов выделения ключевых выражений 1) с помощью автоматических методов на материале письменных текстов, 2) в ходе перцептивного эксперимента на основе письменных текстов, 3) в ходе перцептивного эксперимента на основе устных текстов. Было осуществлено попарное сравнение списков ключевых выражений, полученных в результате работы алгоритмов и в ходе перцептивных экспериментов с письменными и устными текстами. Результаты извлечения ключевых выражений были также сопоставлены с разметкой на фонетически выделенные слова, для получения которой были привлечены эксперты-фонетисты.
Проводимое исследование позволит расширить научное представление о соотношении языковых структур в письменном и устном тексте, связанных с восприятием содержания сообщений, а также будет способствовать совершенствованию процедур автоматической семантической компрессии с привлечением ключевых выражений (реферирование, конспектирование и т.д.).
Доклад посвящён проблеме исследования особенностей восприятия ключевых слов и словосочетаний в письменном и устном текстах на русском языке. Теоретическую основу исследования составляют труды А. С. Штерн, Л. В. Сахарного, Л. Н. Мурзина, Н. Д. Светозаровой, Е. В. Ягуновой и других специалистов в области восприятия речи.
Ключевые выражения — самостоятельные языковые единицы, в совокупности выступающие как особый тип текста по отношению к исходному. Ключевые слова или словосочетания несут в себе наиболее важную информацию о тексте, представляя её в сжатом формате. Опираясь на них, можно установить содержание исходного текста.
Цель исследования заключается в анализе различий, возникающих при восприятии одного и того же текста, представленного в письменном и устном формате. Предполагается, что восприятие содержания письменного и устного текста различается на уровне выделения ключевых выражений.
Материалом исследования являются аудиозаписи выступлений русскоязычных лекторов проекта «Постнаука». Лекции принадлежат научному функциональному стилю и сопровождены транскриптами в виде связного текста с постредактированием.
Автоматическое выделение ключевых слов и словосочетаний в письменном тексте включало в себя этапы лемматизации и фильтрации по стоп-словам и проводилось с использованием различных алгоритмов — статистических (Хи-квадрат, Log-Likelihood, PMI-test, T-test, TF-IDF), гибридных (RAKE, RuTermExtract, SpaCy), с использованием машинного обучения (KeyBERT).
Ручная разметка ключевых выражений была получена в результате проведения серии перцептивных экспериментов. В рамках эксперимента на материале письменного текста аудиторы должны были после прочтения текста выделить 10 ключевых выражений, ранжируя их от самого важного к менее важному. В эксперименте на материале устного текста аудиторы выполняли аналогичное задание, но после прослушивания аудиозаписи. В инструкции также было установлено ограничение на тип выражений — аудиторы могли выбрать в качестве ключевых выражений униграммы, биграммы или триграммы.
Процедура обработки результатов исследования заключалась в сопоставлении результатов выделения ключевых выражений 1) с помощью автоматических методов на материале письменных текстов, 2) в ходе перцептивного эксперимента на основе письменных текстов, 3) в ходе перцептивного эксперимента на основе устных текстов. Было осуществлено попарное сравнение списков ключевых выражений, полученных в результате работы алгоритмов и в ходе перцептивных экспериментов с письменными и устными текстами. Результаты извлечения ключевых выражений были также сопоставлены с разметкой на фонетически выделенные слова, для получения которой были привлечены эксперты-фонетисты.
Проводимое исследование позволит расширить научное представление о соотношении языковых структур в письменном и устном тексте, связанных с восприятием содержания сообщений, а также будет способствовать совершенствованию процедур автоматической семантической компрессии с привлечением ключевых выражений (реферирование, конспектирование и т.д.).