Суммаризация медицинских текстов с учетом автоматической разметки именованных сущностей
Дарья Валерьевна Бойцова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
13о
2024-04-22
16:20 -
16:40
Ключевые слова, аннотация
Суммаризация текста — процедура семантической свертки, которая предполагает построение сокращенной версии текста с сохранением важнейших компонентов его содержания. В работе рассматривается влияние разметки именованных сущностей на качество суммаризации медицинских текстов. Для проверки гипотезы использовались модели архитектуры Трансформер, результаты которых были сопоставлены с использованием метрик ROUGE-1 и ROUGE-L. Для проведения исследования использовались два корпуса: размеченный корпус RuDReC и корпус медицинских статей, представляющий из себя пару «статья и аннотация».
Тезисы
Ключевые слова: суммаризация текста; извлечение именованных сущностей; BioNLP
Целью исследования является разработка эффективного алгоритма суммаризации медицинских текстов на русском языке и оценка степени влияния разметки именованных сущностей (Named Entity Recognition, NER) на качество результатов суммаризации.
Актуальность исследования заключается в необходимости разработки гибридных алгоритмов суммаризации медицинских текстов с учетом именованных сущностей и в разработке специализированных корпусов для обучения и тонкой настройки нейросетевых моделей для нужд BioNLP.
Суммаризация относится к процедурам семантической свертки и предполагает построение сокращенной версии текста с сохранением важнейших компонентов его содержания. Поскольку медицинские тексты насыщены именованными сущностями, которые зачастую представлены словосочетаниями, важно обеспечить их сохранение при генерации реферата. Научные и прикладные разработки в области компьютерной лингвистики, предлагающие решение этой проблемы, на сегодняшний день отсутствуют.
Извлечение именованных сущностей — это задача распознавания в тексте лексем или конструкций, обозначающих имена людей, названия организаций, географических названий, единиц измерения и т. д. В медицинских текстах встречаются типы именованных сущностей, специфичные для данной области знаний: это названия диагнозов, симптомов, лекарственных препаратов, медицинских процедур и т. д. Типология именованных сущностей в медицинских текстах еще до конца не разработана, в связи с этим наша работа призвана восполнить существующие лакуны в этой области.
Актуальность исследования заключается в необходимости разработки гибридных алгоритмов суммаризации медицинских текстов с учетом именованных сущностей и в разработке специализированных корпусов для обучения и тонкой настройки нейросетевых моделей для нужд BioNLP.
Суммаризация относится к процедурам семантической свертки и предполагает построение сокращенной версии текста с сохранением важнейших компонентов его содержания. Поскольку медицинские тексты насыщены именованными сущностями, которые зачастую представлены словосочетаниями, важно обеспечить их сохранение при генерации реферата. Научные и прикладные разработки в области компьютерной лингвистики, предлагающие решение этой проблемы, на сегодняшний день отсутствуют.
Извлечение именованных сущностей — это задача распознавания в тексте лексем или конструкций, обозначающих имена людей, названия организаций, географических названий, единиц измерения и т. д. В медицинских текстах встречаются типы именованных сущностей, специфичные для данной области знаний: это названия диагнозов, симптомов, лекарственных препаратов, медицинских процедур и т. д. Типология именованных сущностей в медицинских текстах еще до конца не разработана, в связи с этим наша работа призвана восполнить существующие лакуны в этой области.
В качестве материала исследования были использованы два корпуса: корпус RuDReC для разметки NER и корпус статей, собранных автором на основе Русского Медицинского Журнала (РМЖ).
RuDREC (the Russian Drug Reaction Corpus [Tutubalina et al., 2021]) — корпус отзывов на русском языке о фармацевтических препаратах, предназначенный для выявления именованных сущностей, связанных со здоровьем и эффективностью лекарственных препаратов. Размеченная часть содержит 500 отзывов и 68036 токенов. Данный корпус был сделан специально для задачи NER.
Корпус статей Русского Медицинского Журнала был разработан для задачи суммаризации. Он содержит тексты 123 статей на тему COVID-19 и их аннотации, объем которых составляет 343356 токенов. Корпус был размечен при помощи модели RuDR-BERT.
В ходе экспериментов для решения задачи NER использовались модель RuDR-BERT и фреймворк SpaCy; для суммаризации — модели mBART, T5, RuBERT.
В результате проведенного исследования применительно к медицинским текстам были протестированы модели суммаризации с неразмеченными и размеченными данными, получены количественные оценки результатов суммаризации в различных режимах. Итоги экспериментов и перспективы их практического применения будут представлены в докладе.
Литература:
Tutubalina E., Alimova I. The Russian Drug Reaction Corpus and neural models for drug reactions and effectiveness detection in user reviews // Bioinformatics. 2021. Vol. 37. P. 243—249.
RuDREC (the Russian Drug Reaction Corpus [Tutubalina et al., 2021]) — корпус отзывов на русском языке о фармацевтических препаратах, предназначенный для выявления именованных сущностей, связанных со здоровьем и эффективностью лекарственных препаратов. Размеченная часть содержит 500 отзывов и 68036 токенов. Данный корпус был сделан специально для задачи NER.
Корпус статей Русского Медицинского Журнала был разработан для задачи суммаризации. Он содержит тексты 123 статей на тему COVID-19 и их аннотации, объем которых составляет 343356 токенов. Корпус был размечен при помощи модели RuDR-BERT.
В ходе экспериментов для решения задачи NER использовались модель RuDR-BERT и фреймворк SpaCy; для суммаризации — модели mBART, T5, RuBERT.
В результате проведенного исследования применительно к медицинским текстам были протестированы модели суммаризации с неразмеченными и размеченными данными, получены количественные оценки результатов суммаризации в различных режимах. Итоги экспериментов и перспективы их практического применения будут представлены в докладе.
Литература: