Алгоритмы автоматического выделения ключевых выражений и тематического моделирования в задачах семантической компрессии русскоязычных корпусов текстов
Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Анна Денисовна Москвина
Докладчик
аспирант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Елена Вячеславовна Соколова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2019-03-22
15:10 -
15:30
Ключевые слова, аннотация
Тематическое моделирование, семантическая компрессия, ключевые выражения, алгоритмы.
Тезисы
Метод автоматической семантической
компрессии на основе алгоритмов выделения ключевых выражений, предложенный и
примененный в нашем проекте, основывается на двух разноплановых алгоритмах
автоматического выделения ключевых слов и словосочетаний, RAKE (Rapid automatic
keyword extraction) и KEA (Keyphrase extraction algorithm). Выбор данной
комбинации объясняется тем, что, как правило, гибридные системы, использующие
работу с шаблонами и машинное обучение, показывают лучшие результаты.
Оригинальность нашего подхода
заключается не только в совмещении двух алгоритмов, но и в разработке процедуры
оценки их эффективности. В качестве возможных решений мы рассмотрели (1)
сопоставление выдачи алгоритмов с условным «золотыми стандартном» (списком
ключевых выражений, сгенерированных для целевых текстов лингвистическим
процессором Sketch Engine), (2) сопоставление выдачи со структурными
компонентами исходного корпуса (заголовки статей, предметный указатель и др.);
сопоставление выдачи (ключевых выражений и их компонентов) с результатами
тематического моделирования.
Важным вкладом в усовершенствование
алгоритма RAKE как компонента семантического процессора стала процедура
предобработки текста, а именно его правильное разбиение на цепочки слов,
превращающихся в ключевые выражения — кандидаты. С этой целью был применен
поверхностный синтаксический анализ, основанный на коротких правилах-шаблонах,
а также был сформирован и расширен собственный словарь стоп-слов. В отношении
КЕА мы произвели расширение сферы его возможного применения: была осуществлена
его адаптация к задаче поиска и извлечения переводных эквивалентов в корпусе
параллельных текстов, а также к задаче автоматического построения рефератов
экстрактивного типа.