LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Словарные коллокации в устном и письменном корпусах: сравнительный анализ

Мария Владимировна Хохлова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2023-03-15
18:05 - 18:25

Ключевые слова, аннотация

Коллокации; словари; устный подкорпус НКРЯ; подкорпус со снятой омонимией; частотность.
In numerous studies, collocability is considered on the basis of written corpora and, mainly, from the point of view of the quantitative characteristics of word combinations. Oral data is, unfortunately, left out of the scope of these works. The paper considers attributive collocations based on written and oral corpora. To differentiate phrases, we use a dictionary index, i.e. the number of dictionaries in which the given unit occurs. Our hypothesis is as follows: the collocations found in five dictionaries are more frequent and reproducible in speech than those found in only two sources. The results confirmed this hypothesis.

Тезисы

В многочисленных исследованиях сочетаемость рассматривается на материале письменных корпусов и, в основном, с точки зрения квантитативных характеристик словосочетаний. Устные данные оказываются вне сферы внимания в этих работах по ряду причин. В отличие от письменных аналогов, корпусы устной речи не так распространены, так как сбор записей и их последующая расшифровка представляют собой сложную задачу. Тем не менее сложно переоценить их важность, поскольку они являются уникальным типом языковых ресурсов. Для русского языка таким проектами являются устный подкорпус в составе НКРЯ, корпус «Один речевой день», корпус устной русской речи, а также «Рассказы о сновидениях». Вопрос представленности словосочетаний в корпусах разных объемов до сих пор остается открытым [Khokhlova, Benko 2020]. В своей работе мы обратились к трем подкорпусам в составе НКРЯ: к устному подкорпусу (объемом 13,4 млн слов), к подкорпусу основного корпуса со снятой грамматической омонимией (объемом 6 млн слов), а также нами дополнительно привлекались тексты с 2010 г. (объемом около 25,1 млн слов). Из базы данных коллокаций русского языка [Khokhlova 2018; Khokhlova 2020] нами были отобраны 50 атрибутивных словосочетаний со словарными индексами 5 и 2, т.е. которые представлены в пяти или в двух словарях. Наша гипотеза заключается в том, что коллокации из первой группы являются более частотными и воспроизводимыми в речи. Нами рассматривались не только квантитативные характеристики единиц, но и также анализировалась их возможная проницаемость. Для этого были проанализированы не только контактные, но и дистантные сочетания (например, «полная свобода» и «полная и безграничная свобода»). Первая группа представлена следующими единицами: богатый урожай, большой авторитет, высокий урожай, глубокая благодарность, глубокое влияние, глубокое знание, глубокий интерес, глубокий кризис, глубокая тишина, глубокое убеждение, глубокое чувство, горячая любовь, грубая ошибка, жгучий брюнет, железная дисциплина, железный характер, крепкая дружба, нестерпимая боль, ожесточенный бой, острая критика, острая нужда, полная свобода, полная тишина, твердая уверенность, тяжелая болезнь. Во вторую группу вошли следующие словосочетания: безмерная глубина, безумная ответственность, большой поклонник, высокий спрос, громадная быстрота, длинная очередь, доскональный анализ, исключительная вежливость, колоссальная стоимость, настойчивая просьба, незыблемый авторитет, неиссякаемая вера, неистовый азарт, огромное желание, огромный рост, острая жалость, пламенная страсть, полное безветрие, поразительная тишина, решительный характер, свежая газета, твердое обязательство, тяжелый кризис, чистое безумие, чрезмерное внимание.
Частоты словосочетаний со словарным индексом 5 показывают низкую корреляцию в первых двух корпусах, а также отличия между ними не являются статистически значимыми (chi-squared = 24,087, df = 2, p<<0,05 согласно тесту Фридмана; p>>0,05 согласно апостериорному тесту Уилкоксона с поправкой Бонферрони). При этом частоты в письменном подкорпусе современных текстов для словосочетаний выше, и отличия являются статистически значимыми (p<<0,05 согласно апостериорному тесту Уилкоксона с поправкой Бонферрони). Данные коллокации демонстрируют низкую проницаемость равную 0,68 и 0,80 для устного подкорпуса и письменного подкорпуса со снятой омонимией соответственно. Наиболее длинными цепочками оказались «твердая, хотя и мгновенно созревшая уверенность» и «полной и равной для всех свободы».
Около трети коллокаций из второй группы имеют ноль вхождений в корпусах, при этом более половины коллокаций не встречаются в первых двух корпусах, таким образом их объемов недостаточно, чтобы исследовать подобные словосочетания. К наиболее частотным относятся следующие словосочетания: «большой поклонник», «длинная очередь», «огромный рост» и «свежая газета». Расстояние между единицами словосочетаний составляет не более двух слов. Можно привести примеры следующих разрывных коллокаций из подкорпуса письменных современных текстов: «длинная автоматная очередь», «чрезмерное исследовательское внимание», «большой ваш поклонник» и «свежая немецкая газета».
Результаты подтверждают выдвинутое нами предположение о том, что коллокации из первой группы с высоким словарным индексом являются более частотными, в то время как те, которые встречаются только в двух словарях, отличаются низкой воспроизводимостью в речи.
Литература
1. Khokhlova M. Building a Gold Standard for a Russian Collocations Database. In Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. Ljubljana 2018. P. 863–869.
2. Khokhlova M. Collocations in Russian Lexicography and Russian Collocations Database. In Proceedings of The 12th Language Resources and Evaluation Conference. Marseille, France. European Language Resources Association, 2020. P. 3191–3199.
3. Khokhlova M., Benko V. Size of corpora and collocations: the case of Russian. In Slovenščina 2.0, 8(2), 2020. P. 58–77.
Источник финансирования Исследование выполнено при поддержке гранта РНФ (проект № 22-18-00189 «Структура и функционирование устойчивых неоднословных единиц русской повседневной речи»).