LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Использование отношения правдоподобия при решении задач авторской идентификации

Михаил Александрович Марусенко
Докладчик
профессор
Санкт-Петербургский государственный университет
Наталия Михайловна Марусенко
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2023-03-16
17:15 - 17:35

Ключевые слова, аннотация

Авторская идентификация; атрибуция; стилеметрия; криминалистическая лингвистика; отношения правдоподобия.
Статья посвящена решению задач авторской идентификации в области криминалистической лингвистики, в которой результаты любой экспертизы оцениваются на соревновательной основе с использованием отношения правдоподобия, считающееся самым адекватным инструментом при создании экспертного заключения. Авторская идентификация сводится к проверке гипотез о том, является или нет конкретный автор настоящим автором атрибутируемого документа.

Тезисы

Огромный объем текстовой информации породил большой спрос на методы классификации текстов, среди которых выделяются задачи авторской идентификации, когда истинный автор некоего документа определяется на основе корпусов текстов, написанных известными авторами. Сегодня мы находимся на четвертом этапе развития теории атрибуции, который характеризуется широким распространением и легкой доступностью программных средств, позволяющих обрабатывать тексты, существующие в электронной форме, без дополнительной обработки. Это создает у их пользователей иллюзию отсутствия необходимости хотя бы общего ознакомления с основными положениями стилеметрии (как минимум, таких как требование жанрово-стилевой однородности исследуемых текстов, исключение речи персонажей и обработка только авторской речи, приоритет синтаксиса над лексикой), имеющей уже достаточно почтенную историю, В большинстве подобных работ, отсутствуют стандартные процедуры валидации методов идентификации: в большинстве случаев, они применяются непосредственно к спорным текстам, без предварительного тестирования на бесспорных образцах. Кроме того, большинство исследователей выбирают определенные слова, например, служебные, создавая возможность бесконечного манипулирования данными до тех пор, пока не добьются «хорошего» ответа. И, наконец, они не оценивают вероятность ошибки [Basson, Labbé 2020]. Однако существует область деятельности, близкая к атрибуции литературных текстов, но протекающая в совершенно других условиях — криминалистическая лингвистика, в которой результаты любой экспертизы оцениваются на соревновательной основе. При формулировании заключений эксперты-криминалисты оперируют следующими категориями [Baldwin 1979]: А) Положительная идентификация: Sure beyond reasonable doubt, There can be very little doubt, Highly likely, Likely, Very probable, Probable, Quite possible, Possible; Б) Отрицательная идентификация: Highly likely, Likely, Quite probable, Probable … что это один и тот же человек. При этом, как отмечают сами англосаксонские криминалисты, категории likely и probable практически являются синонимами. Во многих зарубежных юрисдикциях, в основном, использующих англосаксонское право (Common Law) c целью повышения доказательности заключений экспертов-криминалистов, представляемых в суды, используется отношение правдоподобия (Likelihood Ratio, далее – LR), которое считается «самым подходящим инструментом, помогающим суду при определении значения, которое должно придаваться экспертным заключениям» [Aitken et al. 2011]. Отношение правдоподобия представляет собой отношение вероятности справедливости нулевой гипотезы Н0 к вероятности справедливости альтернативной гипотезы На: (формула)
Hо: два текста написаны одним автором. Ha: два текста написаны разными авторами. Если вероятность справедливости нулевой гипотезы больше, чем вероятность справедливости альтернативной гипотезы, LR имеет величину, большую 1. В противном случае, LR меньше 1. Другими словами, относительная достоверность решения, основанного на конкурирующих гипотезах, связана с величиной LR. Чем больше LR отличается от 1, тем большую достоверность получает одна или другая гипотеза. Значения LR интерпретируются следующим образом: LR>1: результаты склоняются в пользу нулевой гипотезы, LR=1: результаты в равной степени поддерживают обе гипотезы, LR<1: результаты поддерживают альтернативную гипотезу. Такие утверждения могут формулироваться как в цифровом виде, так и  вербально. Ассоциация провайдеров научной криминалистики разработала шкалу для перехода от цифрового формата к вербальному (табл. 2) [Association 2009]:  >1-10: Weak or limited (Слабое или ограниченное), 10-100: Moderate (Умеренное), 100-1000: Moderately strong (Умеренно сильное), 1000-10 000: Strong (Сильное), 10 000-1 000 000: Very strong (Очень сильное),  >1 000 000: Extremely strong (Чрезвычайно сильное). В итоге, авторская идентификация должна сводиться к проверке гипотез о том, является или нет конкретный автор настоящим автором атрибутируемого документа.
Литература
1. Aitken C., Berger C. E. Y., Buckleton J. S., Champod C., Curran J., Dawid A.et al. Expressing evaluative opinions: a position statement // Scientific Justice. 2011. Vol. 51. P. 1–2.
2. Association of Forensic Science Providers, Standards for the formulation of evaluative forensic science expert opinion // Scientific. Justice. 2009. Vol. 3. P. 161–164.
3. Baldwin J. Phonetics and speaker identification // Medicine, Science and the Law  1979. № 9. Р. 231–232.
4. Basson J.-Ch., Labbé D. Les précieux manuscrits de Toulouse. À propos de cinq pièces de théâtre de la fin du XVIIe siècle présentées sous le nom de Jean-Galbert Campistron // Bonnet V. et Al. (Eds). Proceedings of the 15th International Conference on Statistical Analysis of Textual Data (16-19 june 2020). Toulouse // URL: http://lexicometrica.univ-paris3.fr/jadt/JADT2020/jadt2020_pdf/BASSON_LABBE_JADT2020.pdf (Дата обращения: 03.11.2022).