Кластеризация рукописей на базе совпадения разночтений как основа публикации славянской традиции
Елена Леонидовна Алексеева
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ирина Владимировна Азарова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Дина Марковна Миронова
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2015-03-13
14:40 -
15:00
Ключевые слова, аннотация
В докладе рассматриваются методологические особенности исследования большой рукописной традиции.
Тезисы
Как
только перед текстологами встал вопрос об анализе одновременно десятков и сотен
рукописей, понадобился математический метод, позволяющий формализовать
процедуру установления отношений между большим числом объектов. Было разработано несколько процедур, но все они в состоянии обработать не более 250 рукописей.
Целям проекта исследования славянского Евангелия соответствовала задача более или менее исчерпывающего охвата источников до середины XVI в., когда книгопечатание положило предел естественному развитию текста. До начала проекта самый полный список источников славянского Евангелия включал около 500 единиц XI-XV вв., уже после окончания коллаций опубликован список из 2500 единиц. В ходе коллаций было замечено, что рукописи XV-XVI вв. в значительном большинстве входят в одну группу, на базе которой в XVI в. появились печатные издания. Это наблюдение позволило считать, что примерно 1150 рукописей, подвергшихся коллациям, обеспечивает достаточно полное представление материала, при том что в это число вошло подавляющее большинство рукописей XI-XIV вв. и значительное число рукописей XV в.
В связи с большим количеством источников для их первичной обработки мы использовали метод, впервые предложенный двумя американскими текстологами — Эрнестом Колвеллом и Эрнестом Тьюном в 1963 г. для греческой новозаветной традиции. До них при изучении рукописной традиции все рукописи поочередно сравнивались с неким эталоном и далее на основании общности отличий от эталона объединялись в группы. Колвелл и Тьюн предложили отказаться от эталона, сравнивать все рукописи попарно между собой и оценивать их близость по общему тексту, а не по различиям. Однако, в своей работе Колвелл и Тьюн столкнулись с трудностью определения порогового значения степени сходства, ниже которого рукописи бы к кластеру не присоединялись, А. А. Алексееву же удалось избежать этой проблемы, поскольку итог группировки рукописей представлен в виде таблицы, где близкие рукописи находятся рядом.
На первом этапе обработки данных для каждой пары рукописей определяется процент сходства по формуле: число совпадающих чтений/число сравниваемых узлов разночтений. Здесь мы учитываем только те узлы разночтений, в которых обе сравниваемые рукописи имеют ненулевые варианты. В результате мы получаем квадратную матрицу (650х650 для Евангелия от Иоанна, 532х532 для Евангелия от Матфея), показывающую степень сходства каждой рукописи со всеми остальными. На втором этапе программа формирует кластеры рукописей, начиная с пары с самым высоким процентом сходства и двигаясь дальше строго в порядке убывания процента сходства. Процесс кластеризация заканчивается, когда все рукописи объединятся в один кластер. В результате мы получаем перестроенную матрицу, в которой рукописи идут в том порядке, в каком они объединялись в кластеры. Двигаясь вниз по главной диагонали матрицы, мы обнаруживаем границы элементарных кластеров: внутри кластера процент сходства вдоль главной диагонали убывает, увеличение процента сходства сигнализирует о начале нового кластера. Элементарные кластеры следуют в матрице в том порядке, в каком они объединялись в более крупные кластеры в процессе кластеризации.
Кластерный анализ для текста Евангелия от Иоанна позволил выделить 7 групп рукописей, для Евангелия от Матфея - 8.
Целям проекта исследования славянского Евангелия соответствовала задача более или менее исчерпывающего охвата источников до середины XVI в., когда книгопечатание положило предел естественному развитию текста. До начала проекта самый полный список источников славянского Евангелия включал около 500 единиц XI-XV вв., уже после окончания коллаций опубликован список из 2500 единиц. В ходе коллаций было замечено, что рукописи XV-XVI вв. в значительном большинстве входят в одну группу, на базе которой в XVI в. появились печатные издания. Это наблюдение позволило считать, что примерно 1150 рукописей, подвергшихся коллациям, обеспечивает достаточно полное представление материала, при том что в это число вошло подавляющее большинство рукописей XI-XIV вв. и значительное число рукописей XV в.
В связи с большим количеством источников для их первичной обработки мы использовали метод, впервые предложенный двумя американскими текстологами — Эрнестом Колвеллом и Эрнестом Тьюном в 1963 г. для греческой новозаветной традиции. До них при изучении рукописной традиции все рукописи поочередно сравнивались с неким эталоном и далее на основании общности отличий от эталона объединялись в группы. Колвелл и Тьюн предложили отказаться от эталона, сравнивать все рукописи попарно между собой и оценивать их близость по общему тексту, а не по различиям. Однако, в своей работе Колвелл и Тьюн столкнулись с трудностью определения порогового значения степени сходства, ниже которого рукописи бы к кластеру не присоединялись, А. А. Алексееву же удалось избежать этой проблемы, поскольку итог группировки рукописей представлен в виде таблицы, где близкие рукописи находятся рядом.
На первом этапе обработки данных для каждой пары рукописей определяется процент сходства по формуле: число совпадающих чтений/число сравниваемых узлов разночтений. Здесь мы учитываем только те узлы разночтений, в которых обе сравниваемые рукописи имеют ненулевые варианты. В результате мы получаем квадратную матрицу (650х650 для Евангелия от Иоанна, 532х532 для Евангелия от Матфея), показывающую степень сходства каждой рукописи со всеми остальными. На втором этапе программа формирует кластеры рукописей, начиная с пары с самым высоким процентом сходства и двигаясь дальше строго в порядке убывания процента сходства. Процесс кластеризация заканчивается, когда все рукописи объединятся в один кластер. В результате мы получаем перестроенную матрицу, в которой рукописи идут в том порядке, в каком они объединялись в кластеры. Двигаясь вниз по главной диагонали матрицы, мы обнаруживаем границы элементарных кластеров: внутри кластера процент сходства вдоль главной диагонали убывает, увеличение процента сходства сигнализирует о начале нового кластера. Элементарные кластеры следуют в матрице в том порядке, в каком они объединялись в более крупные кластеры в процессе кластеризации.
Кластерный анализ для текста Евангелия от Иоанна позволил выделить 7 групп рукописей, для Евангелия от Матфея - 8.