Моделирование языковой личности автора письменного текста с помощью методов текстомайнинга и модельной лингвистики
Анна Юрьевна Хоменко
Докладчик
аспирант
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Ключевые слова, аннотация
Текстомайнинг, языковая личность, модельная лингвистика, стилеметрия, квалификативный анализ языковой личности, атрибуция текста.
Тезисы
Настоящее исследование посвящено проблеме атрибуции автора
письменного текста с помощью автоматической обработки речевого материала. Анализ
объектов проводится с помощью методов текстомайнинга и стилостатистики.
Экспериментальным материалом стали два заведомо авторизованных текста: 1) текст
С. Д. Довлатова «Наши» (1983 г.), объем
— 21230 слов; 2) текст В. П. Астафьева «Обертон» (1996 г.), объём — 26070 слов. На их примере была проверена
работоспособность разработанной методики, представляющей собой интеграцию квалификативных
методов исследования языковой личности пишущего и квантитативного
преобразования данных лингвистической компонентой модели в математическую. Методика
включает несколько этапов: 1) вычленение из текстов обоих авторов релевантных
для анализа языковой личности критериев (на основе анализа речевых компетенций
по Ю. Н. Караулову и С. М. Вулу) посредством создания формализованных языковых
правил (например: выявление наличия/отсутствия в речи междометий: 1) , INTJ, 2)
<начало предложения> INTJ, 3) , INTJ! 4) INTJ!) с помощью языка
программирования Python;
2) статистическая объективации (присвоение весов) выделенных экспертным путем с
помощью программных средств признаков; 3) присовокупление к имеющимся
идиосинкратическим характеристикам традиционных для стилеметрии параметров
(длин слов и предложений, частотных n-грамм); 4) создание математических моделей языковых личностей
двух авторов; 5) сравнение моделей авторов с помощью корреляционных матриц параметров
идиостиля.