XXVIII Открытая конференция студентов-филологов в СПбГУ

Метрики лексического разнообразия в оценке сложности текстов РКИ для китайских студентов

Жу Бай
Докладчик
аспирант
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе анализируются метрики лексического разнообразия в оценке сложности текстов для чтения из 8 учебников «Восток: Русский язык». В работе подчеркивается актуальность оценки сложности на основе лексического разнообразия. Целью анализа является проверка гипотезы об увеличении лексического разнообразия по мере повышения уровня владения языком по стандартной шкале. На основании результатов подсчета (значения индексов Yule’s K, Simpson’s D, TTR, CTTR, Herdan’s C, Guiraud’s Root TTR) с помощью пакета R проанализирована и интерпретирована сложность учебников.

Тезисы

Ключевые слова: лексическая сложность; лексическое разнообразие; учебники РКИ; пакет R

Адекватные (доступные, но не слишком простые) учебники оказывают положительное влияние на эффективность обучения.
Самая распространенная мера лексического разнообразия TTR рассчитывается как отношение количества уникальных слов текста к количеству всех слов текста [Лапошина, Лебедева, 2021]. При оценках сложности текста предлагается учитывать лексическое разнообразие [Там же]. Чем выше лексическое разнообразие, тем более сложен текст для носителя языка как второго.
Материалом исследования является выборка текстов из 8 учебников «Восток: Русский язык», используемые в китайских высших учебных заведениях. Общий объем выборки составил 49 текстов для чтения и упражнений общим объемом 32806 слов. Была проведена систематизация текстов, а именно распределение по уровням в соответствии с компетенцией носителей в языке по шкале CEFR с A1 по C2, а также распределение упражнений по типу в соответствии с отрабатываемыми навыками.
В качестве инструмента измерения лексического разнообразия был выбран пакет R [Benoit et al., 2018]. Рассчитаны значения метрик лексического разнообразия К (Yule’s K), D (Simpson’s D), TTR (type-token ratio), CTTR (Cumulative Type-Token Ratio), C (Herdan’s C), R (Guiraud’s Root TTR). Переменными во всех формулах являются количество типов (V), количество токенов (N), а также fv (i,N), то есть количество типов, встречающихся i раз в выборке длиной N [Там же].
На этапе предобработки были удалены стоп-слова. С помощью пакета мы получили значения 6 показателей лексического разнообразия, оценили их средние значения (медиану и среднее арифметическое) для каждого из уровней по шкале CEFR.
Значения индексов K, D демонстрируют общее снижение. Значения индексов CTTR, C, R демонстрируют общий рост. В целом интерпретация данных довольно сложна, поскольку значения разных мер несколько противоречивы. Основываясь на результатах [Blinova et al., 2020; Benoit et al., 1998], мы выбрали индекс К в качестве метрики лексического разнообразия, относительно более надежной и независимой от длины текста. Результаты следующие. 
A1 (8 текстов) K (медиана) = 125.22
A2 (6 текстов) K (медиана) = 63.31
B1 (17 текстов) K (медиана) = 53.60
B2 (6 текстов) K (медиана) = 56.66
C1 (4 текста) K (медиана) = 47.35
C2 (8 текстов) K (медиана) = 51.90
Значения индексов K демонстрирует общее снижение, существуют исключения (значения B2, C2). Значение медианы индекса К колеблется в диапазоне от 125.22 до 47.35. В целом можно сказать, что значение К уменьшается от A1 к С2. Таким образом, тексты становятся сложнее.
Наша гипотеза увеличения лексической сложности в целом подтвердилась. Для дальнейшей оценки сложности текста необходимо будет учитывать такие параметры, как семантика (абстрактность / конкретность) и частотность лексем.
 
Литература:
Лапошина А. Н., Лебедева М. Ю. Русистика. М., 2021. № 3. С. 331—345.
Benoit K., Watanabe K., Wang H., Nulty P., Obeng A., Muller S., Matsuo A. Quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3 (30). Durham, 2018. P. 774.
Blinova O. V., Belov S. A., Revazov M. A. Decisions of Russian Constitutional Court: Lexical Complexity Analysis in Shallow Diachrony // CEUR Workshop Proceedings. Vol. 2813. 2021. P. 61—74.
Tweedie F. J., Baayen R. H. How Variable May a Constant Be? Measures of Lexical Richness in Perspective. Computers and the Humanities. New York, 1998. P. 323—352.