XLVIII Международная филологическая научная конференция

Алгоритмы автоматического выделения ключевых выражений и тематического моделирования в задачах семантической компрессии русскоязычных корпусов текстов

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Анна Денисовна Москвина
Докладчик
аспирант
Санкт-Петербургский государственный университет
Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Елена Вячеславовна Соколова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

193
2019-03-22
15:10 - 15:30

Ключевые слова, аннотация

Тематическое моделирование, семантическая компрессия, ключевые выражения, алгоритмы.



Тезисы

Метод автоматической семантической компрессии на основе алгоритмов выделения ключевых выражений, предложенный и примененный в нашем проекте, основывается на двух разноплановых алгоритмах автоматического выделения ключевых слов и словосочетаний, RAKE (Rapid automatic keyword extraction) и KEA (Keyphrase extraction algorithm). Выбор данной комбинации объясняется тем, что, как правило, гибридные системы, использующие работу с шаблонами и машинное обучение, показывают лучшие результаты.
Оригинальность нашего подхода заключается не только в совмещении двух алгоритмов, но и в разработке процедуры оценки их эффективности. В качестве возможных решений мы рассмотрели (1) сопоставление выдачи алгоритмов с условным «золотыми стандартном» (списком ключевых выражений, сгенерированных для целевых текстов лингвистическим процессором Sketch Engine), (2) сопоставление выдачи со структурными компонентами исходного корпуса (заголовки статей, предметный указатель и др.); сопоставление выдачи (ключевых выражений и их компонентов) с результатами тематического моделирования.
Важным вкладом в усовершенствование алгоритма RAKE как компонента семантического процессора стала процедура предобработки текста, а именно его правильное разбиение на цепочки слов, превращающихся в ключевые выражения — кандидаты. С этой целью был применен поверхностный синтаксический анализ, основанный на коротких правилах-шаблонах, а также был сформирован и расширен собственный словарь стоп-слов. В отношении КЕА мы произвели расширение сферы его возможного применения: была осуществлена его адаптация к задаче поиска и извлечения переводных эквивалентов в корпусе параллельных текстов, а также к задаче автоматического построения рефератов экстрактивного типа.