Синтаксическая деривация как способ повышения эффективности алгоритма выделения ключевых слов, основанного на тематической атрибуции
Анна Александровна Токарева
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Разработка методов автоматического выявления ключевых слов — актуальная на данный момент задача, благодаря которой решаются проблемы, связанные с информационным поиском, реферированием текста, кластерным анализом текстов, их аннотированием, а также анализом тональности, поэтому проблема выделения ключевых слов требует серьезного рассмотрения.
В данной работе будет проведен анализ алгоритма выделения ключевых слов на основе их тематической атрибуции и рассмотрен способ повышения эффективности данного алгоритма с помощью подсчета степени их синтаксической деривации.
В данной работе будет проведен анализ алгоритма выделения ключевых слов на основе их тематической атрибуции и рассмотрен способ повышения эффективности данного алгоритма с помощью подсчета степени их синтаксической деривации.
Тезисы
За основу исследования
была взята работа по тематической атрибуции, выполненная на кафедре
математической лингвистики Д. Шакуровой в 2016 г. Цель работы: проанализировать
имеющийся алгоритм выделения ключевых слов и найти способы его
усовершенствования.Описываемый алгоритм предполагал создание специального
тематического корпуса, который был размечен и лемматизирован. Каждой словоформе
был приписан вес в качестве TF-IDF меры, по которым ранжировались словоформы. Далее
выполнялась процедура приписывания дополнительных коэффициентов на основании
синтаксической позиции слова и оформления его анафорическими элементами.
Комплексный показатель использовался для определения степени «тематичности» слов.
В результате анализа статистических данных производительность алгоритма была
оценена в 70%. Для повышения качества метода будет определено влияние
синтаксических дериватов на уточнение процедуры выделения ключевых слов в
тексте. Материалом исследования стал небольшой корпус текстов по музыке,
размеченных вручную. Были выделены дериваты и составлены частотные списки
аффиксов. Были определены основы с наивысшей степенью синтаксической деривации.
В дальнейшем дополненные списки будут использованы в процедуре автоматического
выделения ключевых слов.