46th International Philological Research Conference

Новый статистический метод атрибуции текстов

Андрей Вячеславович Зенков
Докладчик
доцент
Уральский федеральный университет им. Б. Н. Ельцина

193
2017-03-15
15:35 - 15:55

Ключевые слова, аннотация

Закон Бенфорда, стилеметрия, атрибуция текстов, обработка текстов, критерий Манна-Уитни.

Тезисы

В последние годы заметно расширилась сфера практического использования известного закона Бенфорда. Он описывает вероятность появления определенной первой значащей цифры в разнообразных распределениях величин, взятых из реальной жизни. Вопреки кажущемуся очевидным предположению о том, что частоты появления любой первой значащей цифры должны быть равными, для многих массивов данных чаще других встречается единица! Согласно закону Бенфорда вероятность появления цифры d в качестве его первой значащей цифры P(d) = lg (1 + 1/d), так что d = 1 должна встречаться с вероятностью lg 2 = 0,30, d = 2 — с вероятностью 0,18 и т. д.
Исчерпывающего объяснения закона Бенфорда, охватывающего все случаи реализации, до сих пор не предложено, хотя и сформулированы некоторые условия, благоприятствующие его появлению.
Нами показана перспективность подсчета частот различных первых значащих цифр числительных в лингвистике — для задач текстологии. Оказалось, что не только для случайной комбинации текстов, но и для связных текстов распределение частот приближается к указанному, но доля единицы заметно превышает 30% — хотя бы потому, что, формально являясь числительным, слово «один» фактически может выступать в роли неопределенного артикля.
В отличие от традиционного применения закона Бенфорда, трактующего отклонения от закона как указание на возможное наличие «фальсификаций» (в широком понимании), нами сделан акцент на сравнении этих отклонений для текстов разных авторов; показано, что эти отклонения являются статистически устойчивыми авторскими особенностями, позволяющими различать тексты разных авторов.
Работа носит экспериментальный характер. Цель теоретического обоснования результатов не ставилась, что, однако, не умаляет применимости предложенной методологии в практике текстологии.