XXVIII Открытая конференция студентов-филологов в СПбГУ

Проблема автоматической детекции адъективной неопределенности в русских юридических текстах

Алена Евгеньевна Берлин
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Анализ существующих подходов к классификации контекстов на определенные и неопределенные, включая традиционные и нейросетевые модели, показал неоднозначность выбора оптимальной методологии. В докладе ставятся задачи для дальнейшего исследования подходов к детекции неопределенности в юридических текстах. 

Тезисы

Ключевые слова: адъективная неопределенность; автоматическая обработка естественного языка; юридический домен  

Для юридических текстов существуют нормы, призванные обеспечивать ясность текста и однозначность его интерпретации. Причиной возможного несоответствия этим требованиям является лингвистическая неопределенность (vagueness), которая может пониматься как «неединственность интерпретации» [Блинова, Панкратьева, 2024]. Цель настоящей работы заключается в выявлении основных задач разработки системы детекции неопределенных контекстов в юридических текстах.
Основные понятия. Настоящее исследование посвящено адъективной неопределенности, то есть случаям, когда локусом неопределенности является качественное прилагательное или наречие.
Систематический обзор. Системы, используемые для детекции неопределенности, можно разделить на две группы: модели на основе трансформеров и традиционные классификаторы.     
Основные работы, приближенные к задаче детекции неопределенности в юридических текстах, таковы:
a. [Lebanoff, 2018] Автоматическая классификация неопределенных слов и предложений в текстах политики обработки персональных данных. Исследователь использовал классификаторы CNN, LSTM и генеративную модель AC-GAN, которая показала наилучший результат: Precision — 52,90%, Recall — 54,64%, F1-score — 52,34%.
b. [Alexopoulos, 2014] Классификация неопределенных дефиниций в конкретной онтологии с помощью наивного байесовского классификатора: Accuracy — 84%.
c. [Malik et al., 2023] Автоматическая классификация предложений на пять классов по уровню неопределенности. Использовались: CNN, модели группы BERT. DistilRoBERTa-Regression: F1-score — 88,9%.
Итак, в большинстве случаев исследователи отдают предпочтение различным моделям группы BERT, но в отдельных случаях классические классификаторы показывают более высокий результат. Дальнейшее исследование будет подразумевать серию экспериментов, направленных на сравнение традиционных моделей, моделей на основе трансформеров и гибридных моделей в задаче автоматической детекции неопределенности.    

Работа выполнена при поддержке СПбГУ, шифр проекта
— 123042000068-8.  

Литература:
Блинова О. В., Панкратьева А. А. Специальные знания и их применение в эксперименте по выявлению неопределенных контекстов русскоязычными юристами // Десятая международная конференция по когнитивной науке: Тезисы докладов. Пятигорск, 26–30 июня 2024 г. В двух частях. Часть I / отв. ред. М. В. Киреев. Пятигорск, 2024.
Alexopoulos P., Pavlopoulos J. A Vague Sense Classifier for Detecting Vague Definitions in Ontologies // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Volume 2: Short Papers. Gothenburg, Sweden: Association for Computational Linguistics, 2014. P. 33—37.
Lebanoff L., Liu F. Automatic Detection of Vague Words and Sentences in Privacy Policies // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. P. 3508—3517.
Malik G., Yildirim S., Cevik M., Bener A. An Empirical Study on Vagueness Detection in Privacy Policy Texts // Proceedings of the Canadian Conference on Artificial Intelligence, 2023.