45th International Philological Research Conference

К вопросу о мерах лексического сходства частотных словарей

Александр Олегович Гребенников
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2016-03-16
14:20 - 14:40

Ключевые слова, аннотация

Анализируется использование существующих мер лексического сходства частотных словарей в стилеметрических исследованиях на материале серии частотных словарей русских писателей. Показан их недостаточный потенциал при решении стилеразличительных задач. Также рассматривается численный метод выделения лексических маркеров, использование которого, напротив, представляется перспективным.

Тезисы

Анализируется использование существующих мер лексического сходства частотных словарей в стилеметрических исследованиях. Профессор А. Я. Шайкевич предлагает использовать в качестве простейшей меры лексического сходства двух частотных словарей следующую формулу: Cxy = Σ min {pxi, pyi}, где Σ pxi и Σ pyi — вероятности, т. е., в нашем случае, относительные частоты единиц словаря; min минимальная из двух частот. Показатель приобретает значение 1 при сравнении частотных словарей одного и того же текста; он близок к 0 при сравнении ЧС, использующих разную графику.
Работоспособность формулы в стилеметрических исследованиях проверяется на материале частотных словарей рассказов выдающихся русских писателей (А. П. Чехова, Л. Н. Андреева, А. И. Куприна), создаваемых на кафедре математической лингвистики СПбГУ. Данные словарные материалы обеспечивают хорошую базу для сравнения в силу одинакового объема (около 200 000 словоупотреблений), единства жанра текстов, лежащих в их основе, принципов отбора материала и составления.
Полученные значения подтверждают принадлежность исследуемых текстов к одному языку (что само собой разумеется), однако стилеразличительный потенциал формулы если и имеет место, то выражен весьма незначительно. Поскольку весьма вероятно, что наибольший вклад в общую сумму вносят самые частые слова, формула модифицируется следующим образом: Cxy = Σ min {pxi, pyi} / 0,5 (Σ pxi + Σ pyi), где Σ pxi и Σ pyi вычисляются для выбранной зоны рангового частного словаря (первых i единиц). Представлены данные для для первых 100 и 100 наиболее частых лексем. Наблюдается некоторая корректировка полученных результатов, обратно пропорциональную количеству охваченных лексем, при этом возможности для стилеразличения по прежнему минимальны.
Поэтому, для анализа реальных различий в частных словарях предлагается использовать формулу: S = (xm – 1) / √m, где x — частота слова, m — математическое ожидание этой частоты. Будем считать все слова, S которых превысил некоторый порог (например, S > 3), лексическими маркерами. Продемонстрированы результаты применения формулы в анализируемых словарях.
Дальнейший содержательный и сопоставительный анализ выделенных единиц представляется перспективным в свете наших недавних исследований.