Этнолингвистические группы Юго-Восточной Европы: способы презентации / Ethnolinguistic groups of Southeastern Europe: Ways of presentation
Andrey Nikolaevich Sobolev
Докладчик
главный научный сотрудник
Институт лингвистических исследований РАН
Институт лингвистических исследований РАН
Мария Сергеевна Морозова
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Никита Геннадьевич Горлов
Докладчик
сотрудник
Институт лингвистических исследований РАН
Институт лингвистических исследований РАН
Греческий институт, 9-я линия, В.О. 2/11, ауд. 120
2023-03-18
17:15 -
17:40
Ключевые слова, аннотация
языки Юго-Восточной Европы; этнические группы Юго-Восточной Европы; балканский языковой союз; лингвистические выборки; визуализация
languages of Southeastern Europe; ethnic groups of Southeastern Europe; Balkan Sprachbund; language samples; visualization
В докладе рассматриваются способы визуализации сведений об этнолингвистических группах Юго-Восточной Европы. Обсуждаются принципы составления выборки и разработки шкалы оценок численности групп, а также способы отображения данных об их расселении.
The paper considers ways to visualize data about the ethnolinguistic groups of Southeastern Europe. The principles of compiling a sample of such groups and a scale for quantitative estimates of their size, as well as ways of visually displaying data on their settlement are discussed.
languages of Southeastern Europe; ethnic groups of Southeastern Europe; Balkan Sprachbund; language samples; visualization
В докладе рассматриваются способы визуализации сведений об этнолингвистических группах Юго-Восточной Европы. Обсуждаются принципы составления выборки и разработки шкалы оценок численности групп, а также способы отображения данных об их расселении.
The paper considers ways to visualize data about the ethnolinguistic groups of Southeastern Europe. The principles of compiling a sample of such groups and a scale for quantitative estimates of their size, as well as ways of visually displaying data on their settlement are discussed.
Тезисы
В докладе рассматриваются некоторые способы цифровизации и пропорциональной визуализации сведений об этнолингвистических группах Юго-Восточной Европы (Балканского и Карпатско-Дунайского ареалов), имеющихся в настоящее время в аналоговых форматах и необходимых для количественно обоснованного составления репрезентативных лингвистических выборок по региону. Выборки, лежащие в основе сеток пунктов лингвистических атласов рассматриваемого региона, таких как известные Atlas Linguarum Europae, Atlante linguistico mediterraneo, Общекарпатский диалектологический атлас, Малый диалектологический атлас балканских языков и малоизвестный новейший Mouton Atlas of Languages and Cultures [Carling 2019] никоим образом не отражают местного лингвистического и этнолингвистического разнообразия в его полноте и очень непропорционально представляют языковые варианты региона с точки зрения количества говорящих. Несмотря на то, что идеальные выборки были недостижимы в прошлом и вряд ли будут достижимы в близком будущем при текущем положении дел в балканском языкознании в принципе, тем не менее, стремление к достаточному, максимально полному, достоверному и пропорциональному отражению разнообразия лингвистических фактов с учетом различной глубины диалектной дифференциации on the ground побуждает поставить вопрос о методах их составления, цифровизации и способах визуализации результатов в новом международном проекте Atlas of the Balkan Linguistic Area [https://abla.cnrs.fr]. Можно ли найти способы соотнести имеющуюся нестабильную политико-географическую, часто оценочную количественную этнографическую и очень фрагментарную социолингвистическую информацию (вроде «на территории государств X, Y проживает количество N представителей этнической группы Z») с качественной лингвистической (вроде «на территории Ω бытуют языковые формы α, β, γ…»), визуализировать ее на лингвистических и этнолингвистических картах и использовать для создания представительных лингвистических выборок?
С методологической точки зрения выделяются несколько шагов, важных для решения поставленной задачи. Во-первых, создаваемая выборка должна быть полной с точки зрения исчисления в ней известных науке этнолингвистических групп Юго-Восточной Европы. Особую проблему здесь представляет отражение групп, даже приблизительная численность которых трудно определима, напр., арумын или цыган. Составление — пусть даже репрезентативной — выборки групп, представляющих в данное время интерес для определенного круга ученых (подход, нередко используемый в лингвистических атласах и базах данных, ср. выборку World Atlas of Language Structures, которая включает в общей сложности 2662 языка и диалекта, но при этом представляет скорее набор языковых типов, отражающих поведение отдельных «интересных» параметров межъязыкового варьирования), может привести к тому, что наблюдаемые на материале такой выборки распределения окажутся далеко не полно соответствующими действительности. Во-вторых, должна быть разработана шкала количественных оценок численности этнолингвистических групп, адекватно учитывающая как сравнительно точные сведения, так и оценочные суждения (напр. в Призрене проживают 60 тыс. турок; численность италоговорящего населения Юго-Восточной Европы составляет «несколько десятков тысяч» человек [Kahl 2014]). В-третьих, необходимо обеспечить удобное визуальное отображение данных о расселении изучаемых этнолингвистических групп, напр. при точечном представлении территории распространения — выбор размера значков для разработанной шкалы с учетом разницы между минимальным и максимальным значением численности группы (100 чел. vs. 19 млн. чел.).
Полученные данные о численности этнолингвистических групп могут быть использованы в лингвистических исследованиях, в которых число говорящих на языке — в сочетании с другими социолингвистическими параметрами (престиж, тип связей внутри языкового сообщества, число носителей языка как L2) — выступает в качестве одной из переменных. Для подобных исследований необходима не только типологически репрезентативная выборка языков/групп, но и адекватное представление о количественном соотношении между ними.
С технической точки зрения, широкий спектр возможностей статистической обработки и визуализации данных предоставляет язык программирования R, позволяющий с помощью функционала подгружаемых пакетов (таких как ggplot2, plotly, gt, flextable, reactable и др.) выводить нужную информацию и ее анализ в виде таблиц, линейных графиков, гистограмм, диаграмм корреляций, столбчатых диаграмм — как статических, так и интерактивных. Также инструментарий R и его пакетов (в частности, пакета leaflet) позволяет отображать необходимые данные на интерактивных картах, обеспечивая возможность генерации комплексных многослойных систем условных значков, геометрических фигур, легенд и интерфейса взаимодействия с ними поверх т. н. картографических «подложек», а также возможность импорта сторонних данных, находящихся в открытом доступе и потенциально важных для решения поставленных задач по визуализации — например, информации о региональных и политико-административных границах из соответствующих баз данных (таких как geoBoundaries [Runfola et al. 2020]). Наконец, все визуализированные различными способами данные могут быть «собраны» в единое веб-приложение (с помощью пакета R shiny) для обеспечения удобства доступа к результатам исследовательской работы и взаимодействия с ними.
Литература
Carling G. (ed.). Mouton Atlas of Languages and Cultures. Berlin; New York: de Gruyter Mouton, 2019.
Kahl Th. Ethnische, sprachliche und konfessionelle Struktur der Balkanhalbinsel // P. Himstedt-Vaid, U. Hinrichs, Th. Kahl (eds.). Handbuch Balkan. Wiesbaden: Harrassowitz, 2014. P. 87–134.
Runfola D. et al. geoBoundaries: A global database of political administrative boundaries // PLoS ONE. 2020. Vol. 15(4): e0231866.
Исследование выполнено за счет гранта Российского научного фонда №22-48-09003, https://rscf.ru/project/22-48-09003/.
С методологической точки зрения выделяются несколько шагов, важных для решения поставленной задачи. Во-первых, создаваемая выборка должна быть полной с точки зрения исчисления в ней известных науке этнолингвистических групп Юго-Восточной Европы. Особую проблему здесь представляет отражение групп, даже приблизительная численность которых трудно определима, напр., арумын или цыган. Составление — пусть даже репрезентативной — выборки групп, представляющих в данное время интерес для определенного круга ученых (подход, нередко используемый в лингвистических атласах и базах данных, ср. выборку World Atlas of Language Structures, которая включает в общей сложности 2662 языка и диалекта, но при этом представляет скорее набор языковых типов, отражающих поведение отдельных «интересных» параметров межъязыкового варьирования), может привести к тому, что наблюдаемые на материале такой выборки распределения окажутся далеко не полно соответствующими действительности. Во-вторых, должна быть разработана шкала количественных оценок численности этнолингвистических групп, адекватно учитывающая как сравнительно точные сведения, так и оценочные суждения (напр. в Призрене проживают 60 тыс. турок; численность италоговорящего населения Юго-Восточной Европы составляет «несколько десятков тысяч» человек [Kahl 2014]). В-третьих, необходимо обеспечить удобное визуальное отображение данных о расселении изучаемых этнолингвистических групп, напр. при точечном представлении территории распространения — выбор размера значков для разработанной шкалы с учетом разницы между минимальным и максимальным значением численности группы (100 чел. vs. 19 млн. чел.).
Полученные данные о численности этнолингвистических групп могут быть использованы в лингвистических исследованиях, в которых число говорящих на языке — в сочетании с другими социолингвистическими параметрами (престиж, тип связей внутри языкового сообщества, число носителей языка как L2) — выступает в качестве одной из переменных. Для подобных исследований необходима не только типологически репрезентативная выборка языков/групп, но и адекватное представление о количественном соотношении между ними.
С технической точки зрения, широкий спектр возможностей статистической обработки и визуализации данных предоставляет язык программирования R, позволяющий с помощью функционала подгружаемых пакетов (таких как ggplot2, plotly, gt, flextable, reactable и др.) выводить нужную информацию и ее анализ в виде таблиц, линейных графиков, гистограмм, диаграмм корреляций, столбчатых диаграмм — как статических, так и интерактивных. Также инструментарий R и его пакетов (в частности, пакета leaflet) позволяет отображать необходимые данные на интерактивных картах, обеспечивая возможность генерации комплексных многослойных систем условных значков, геометрических фигур, легенд и интерфейса взаимодействия с ними поверх т. н. картографических «подложек», а также возможность импорта сторонних данных, находящихся в открытом доступе и потенциально важных для решения поставленных задач по визуализации — например, информации о региональных и политико-административных границах из соответствующих баз данных (таких как geoBoundaries [Runfola et al. 2020]). Наконец, все визуализированные различными способами данные могут быть «собраны» в единое веб-приложение (с помощью пакета R shiny) для обеспечения удобства доступа к результатам исследовательской работы и взаимодействия с ними.
Литература
Carling G. (ed.). Mouton Atlas of Languages and Cultures. Berlin; New York: de Gruyter Mouton, 2019.
Kahl Th. Ethnische, sprachliche und konfessionelle Struktur der Balkanhalbinsel // P. Himstedt-Vaid, U. Hinrichs, Th. Kahl (eds.). Handbuch Balkan. Wiesbaden: Harrassowitz, 2014. P. 87–134.
Runfola D. et al. geoBoundaries: A global database of political administrative boundaries // PLoS ONE. 2020. Vol. 15(4): e0231866.
Исследование выполнено за счет гранта Российского научного фонда №22-48-09003, https://rscf.ru/project/22-48-09003/.