XXVIII Открытая конференция студентов-филологов в СПбГУ

Метаязыковые высказывания о сложности: данные веб-корпуса

Алия Ильгамовна Закирова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Представленное исследование посвящено метаязыковым суждениям наивных носителей русского языка о языковой сложности разных типов: на уровне синтаксиса, лексики и др. Подробно изложен способ поиска материала в веб-корпусе Araneum Russicum. В результате 94 поисковых запросов получена выборка суждений, содержащая 148961 предложение. Обрисованы подходы к классификации полученных контекстов для выявления параметров, влияющих на лингвистическую сложность с точки зрения наивных носителей.

Тезисы

Ключевые слова: корпусная лингвистика; лингвистическая сложность; метаязык; наивный носитель

Исследование посвящено метаязыковым суждениям наивных носителей русского языка о сложности разных типов: на уровне синтаксиса, лексики и др. Объектом исследования является лингвистическая, а не энциклопедическая сложность.
В представленной работе особое внимание уделено первому этапу этого исследования — поиску материала. Исследовательские данные собраны в веб-корпусе Araneum Russicum, содержащем более 19 миллиардов токенов. Выбор этого корпуса обусловлен не только обширным объемом материала, что позволяет получить больше данных, но и качеством этого материала. В Araneum Russicum содержатся тексты из Интернета, что дает доступ к высказываниям с прямой оценкой, данной наивными носителями. Благодаря этому удается достичь основной цели исследования — проанализировать, какие языковые явления наивные носители считают сложными (или трудными для понимания).
Для поиска материала использовался CQL (Corpus Query Language) — специальный язык, позволяющий составлять сложные запросы с учетом грамматических и лексических характеристик слов. В частности, были составлены запросы с использованием джокера типа слов.* сложн.*, говорить неясн.*, непонятн.* текст и т. д. Была также использована возможность задавать расстояние между леммами; расстояние от -1 до 1 оказалось наиболее оптимальным. Большинство поисковых запросов имеет вид word (meet [lemma ="слов.*"] [lemma ="заковырист.*"] -1 1). Среди выполненных запросов есть большое число непродуктивных, т. е. не давших результатов или давших нерелевантные для исследования результаты.
Продуктивные запросы можно разделить на несколько групп, которые позволяют проследить логику поиска материала. Так, были обработаны запросы вида лемма + модификатор, синонимичный прилагательному «сложный» или наречию «сложно» (далее — модификатор). Напр., слов.* непрост.*, непонятн.* назван.*, сложн.* текст. Продуктивной оказалась модель типа глагол + модификатор, напр., .*звучать сложн.*, выразиться проще, .*сказать заумн.*. Глаголы также есть в составе запросов затруднять понимание, нахвататься слов.*, объяснить .*проще. Для поиска материала были также использованы существительные, содержащие семантику «непонятного», напр., тарабарщина, и сочетания слов, являющиеся показателями перефразирования, напр., другими словами, то бишь, то есть.
Таким образом, из 232 запросов продуктивных оказалось 94, в результате получена выборка суждений, содержащая 148961 предложение. Подходы к классификации полученных контекстов подразумевают анализ высказываний на всех уровнях языка и выявление тех параметров, которые затрудняют их понимание наивными носителями.

Литература:
Araneum Russicum III Maximum [Электронный корпус]. URL: http://unesco.uniba.sk/aranea/run.cgi/first_form?corpname=AranRusi_a;align=# (дата обращения: 08.02.2025).