46th International Philological Research Conference

Представление данных в компьютерной текстологии

Дина Марковна Миронова
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет

193
2017-03-15
16:15 - 16:35

Ключевые слова, аннотация

Математическая лингвистика, компьютерная текстология, классификация рукописей, узел разночтений, формула разночтений, кластерный анализ, трехуровневый метод.

Тезисы

Первым этапом подготовки рукописного материала для автоматизированной классификации является создание коллаций источников. Результатом коллаций является список вариантов чтений для каждого узла разночтений, обнаруженного в процессе коллации. Далее данные для работы программы кластерного анализа Алексеева представляются в виде таблицы, в которой строки соответствуют сиглам рукописей, а столбцы — номерам узлов.
Эти данные можно представить в виде таблицы, где каждой рукописи соответствует строка, в которой для каждого узла разночтений проставлен номер варианта, зафиксированный в этой рукописи.
В то время как в кластерном анализе Алексеева основанием классификации является узел разночтения, в стемматологии, в частности, в трехуровневом методе  Ваттеля, основанием для классификации служит формула разночтения. Если узел разночтений — это оппозиция двух или более чтений, то формула разночтений — это оппозиция двух или более групп рукописей. Материал, подготовленный по коллациям рукописей легко преобразуется из одного формата в другой.
Каждый узел разночтений можно переписать в виде формулы разночтений, в которой противопоставляются группы рукописей с различными чтениями. В формуле группы рукописей с одинаковым чтением отделяются косой чертой от других групп.
Так, если для гипотетических рукописей A, B, C, D по двум узлам разночтений текст представлен как последовательность строк
A 1 2
B 1 1
C 2 2
D 2 1,
где каждая строка соответствует рукописи, при преобразовании данной последовательности в формулы разночтений получим запись:
A B / С D
B D / A C,
где каждая строка соответствует узлу разночтений.