XXIII Открытая конференция студентов-филологов в СПбГУ

Синтаксическая деривация как способ повышения эффективности алгоритма выделения ключевых слов, основанного на тематической атрибуции

Анна Александровна Токарева
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Разработка методов автоматического выявления ключевых слов — актуальная на данный момент задача, благодаря которой решаются проблемы, связанные с информационным поиском, реферированием текста, кластерным анализом текстов, их аннотированием, а также анализом тональности, поэтому проблема выделения ключевых слов требует серьезного рассмотрения. 
В данной работе будет проведен анализ алгоритма выделения ключевых слов на основе их тематической атрибуции и рассмотрен способ повышения эффективности данного алгоритма с помощью подсчета степени их синтаксической деривации.

Тезисы

За основу исследования была взята работа по тематической атрибуции, выполненная на кафедре математической лингвистики Д. Шакуровой в 2016 г. Цель работы: проанализировать имеющийся алгоритм выделения ключевых слов и найти способы его усовершенствования.Описываемый алгоритм предполагал создание специального тематического корпуса, который был размечен и лемматизирован. Каждой словоформе был приписан вес в качестве TF-IDF меры, по которым ранжировались словоформы. Далее выполнялась процедура приписывания дополнительных коэффициентов на основании синтаксической позиции слова и оформления его анафорическими элементами. Комплексный показатель использовался для определения степени «тематичности» слов. В результате анализа статистических данных производительность алгоритма была оценена в 70%. Для повышения качества метода будет определено влияние синтаксических дериватов на уточнение процедуры выделения ключевых слов в тексте. Материалом исследования стал небольшой корпус текстов по музыке, размеченных вручную. Были выделены дериваты и составлены частотные списки аффиксов. Были определены основы с наивысшей степенью синтаксической деривации. В дальнейшем дополненные списки будут использованы в процедуре автоматического выделения ключевых слов.