49th International Philological Conference (IPC 2020) in Homage to Professor Ludmila Verbitskaya (1936-2019)

Моделирование языковой личности автора письменного текста с помощью методов текстомайнинга и модельной лингвистики

Анна Юрьевна Хоменко
Докладчик
аспирант
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)

Ключевые слова, аннотация

Текстомайнинг, языковая личность, модельная лингвистика, стилеметрия, квалификативный анализ языковой личности, атрибуция текста.

Тезисы

Настоящее исследование посвящено проблеме атрибуции автора письменного текста с помощью автоматической обработки речевого материала. Анализ объектов проводится с помощью методов текстомайнинга и стилостатистики. Экспериментальным материалом стали два заведомо авторизованных текста: 1) текст С. Д.  Довлатова «Наши» (1983 г.), объем —  21230 слов; 2) текст В. П.  Астафьева «Обертон» (1996 г.), объём —  26070 слов. На их примере была проверена работоспособность разработанной методики, представляющей собой интеграцию квалификативных методов исследования языковой личности пишущего и квантитативного преобразования данных лингвистической компонентой модели в математическую. Методика включает несколько этапов: 1) вычленение из текстов обоих авторов релевантных для анализа языковой личности критериев (на основе анализа речевых компетенций по Ю. Н. Караулову и С. М. Вулу) посредством создания формализованных языковых правил (например: выявление наличия/отсутствия в речи междометий: 1) , INTJ, 2) <начало предложения> INTJ, 3) , INTJ! 4) INTJ!) с помощью языка программирования Python; 2) статистическая объективации (присвоение весов) выделенных экспертным путем с помощью программных средств признаков; 3) присовокупление к имеющимся идиосинкратическим характеристикам традиционных для стилеметрии параметров (длин слов и предложений, частотных n-грамм); 4) создание математических моделей языковых личностей двух авторов; 5) сравнение моделей авторов с помощью корреляционных матриц параметров идиостиля.