LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Методика корпусного отбора современной фразеологии

Александра Игоревна Ольховская
Докладчик
заведующий отделом
Государственный институт русского языка им. А. С. Пушкина
Анна Артемовна Зельникова
Докладчик
магистрант 1 курса
Государственный институт русского языка им. А. С. Пушкина

193
2023-03-15
16:00 - 16:20

Ключевые слова, аннотация

Фразеология; коллокация; сила коллокации; корпусная лингвистика; корпус текстов.

Тезисы

Изучение фразеологизмов в отечественном языкознании началось ещё в к. XIX в. Уже тогда стало ясно, что выражения, чье употребление обусловлено действием «закона предания» [Срезневский, 1873, с. 3] отличны и от слов, и от словосочетаний. Новый этап в изучении фразеологии наступил на рубеже XX–XXI вв. и был связан с бурным развитием информационных технологий и, в частности, – с появлением лингвистических корпусов.
Различные корпуса русского языка являют собой богатейший источник языкового материала, включая фразеологический. Особенно актуальным становится использование корпусов в исследовании неологизмов. Если укорененные в языке единицы представлены в разнообразных словарях, то новейший языковой материал нуждается в фиксации и описании.
Вместе с тем «словоцентричность» корпусного поиска создает существенные трудности в вычленении фразеологического материала в огромном массиве данных. Целью данной работы является разработка и опытная проверка методики, позволяющей производить эффективный поиск и верификацию новой фразеологии с опорой на корпусные данные.
В качестве основного приёма корпусного отбора был выбран поиск при помощи т.н. маркеров новизны. Впервые этот способ был успешно применен Г.Ю. Никипорец-Такигава в ходе отбора слов-неологизмов [Никипорец-Такигава 2008].
На первом этапе работы были сформулированы ключевые фразы-маркеры новизны: «как сейчас / сегодня говорят», «как сейчас / сегодня принято говорить», «как сейчас / сегодня любят говорить», «модное выражение», «модно выражаться», и т.д. (всего 15 фраз). Затем с помощью выделенных маркеров осуществлялся поиск по газетному корпусу Национального корпуса русского языка (далее – НКРЯ). Выбор данного корпуса обусловлен его объёмом (790 млн токенов), хронологическими рамками (с 1983 г. по настоящее время) и стилевой спецификой (неологизмы осваиваются прежде всего в СМИ).
В результате поиска было обнаружено более 270 различных единиц, которые мы обозначили как «устойчивые выражения». При этом было очевидно, что бо́льшая часть найденных выражений не может быть отнесена к числу фразеологических, ср.: «в неформальной обстановке», «актуальный тренд», «на кромке хаоса», «цивилизованная страна», «со скромным достатком» и др.
На втором этапе с опорой на авторскую интроспекцию осуществлялись анализ и оценка отобранного материала. В качестве опорного использовался широкий подход к понимаю фразеологии, описанный в работах Н. С. Шанского, В. В. Виноградова, О. С. Ахмановой. По итогам фильтрации было выявлено около 40 единиц для последующего анализа, которые были отнесены к разряду фразеологических выражений. Среди них такие единицы, как «взрыв мозга», «по полной программе», «чёрный список», «активная гражданская позиция», «медийная персона» и т. д.
Третий этап исследования был посвящён проверке отобранных фразеологизмов на предмет «современности». Под современными мы понимаем такие фразеологизмы, которые появились в языке за последние 40 лет — с начала 80-х гг. XX в. по настоящее время. Отметим, что в данном случае проверка проводилась по основному корпусу НКРЯ, включающему в себя тексты, написанные до 80-х гг. XX в.
На этом этапе было отсеяно около 10 фразеологизмов. Так, если выражение «активная гражданская позиция» может быть отнесено к числу современных (первое вхождение — 1985), то выражения «мелкая сошка», «чёрный список», «делать деньги» встречались в речи и раньше (1825—1833, 1929 и 1769 гг. соответственно).
Наконец, заключительный этап исследования представляет собой проверку силы найденных словосочетаний. Она производилась посредством вычисления коэффициента взаимной информации (MI), показывающего меру зависимости между двумя единицами. MI раскрывает отношение реальной частотности словосочетания к математически ожидаемой. Для определения взаимной информации можно воспользоваться соответствующей формулой либо готовыми цифрами, представленными в корпусном менеджере Sketch Engine. К примеру, у фразеологизма «активная гражданская позиция» MI составляет 7.0, у фразеологизма «горячая точка»  6.7, у фразеологизма «по полной программе» – 7.3. Для сравнения: у словосочетания «червивое яблоко», которое никак н может быть отнесено к фразеологизмам, MI равен 5.7.
По итогам данного исследования было доказано, что применение метода корпусного поиска по словам-маркерам новизны для обнаружения новой фразеологии является вполне применимым. Вместе с тем подобные исследования имеют свою специфику, а сама методика нуждается в определённой доработке.

Список литературы:
  1. Никипорец-Такигава Г. Неологизмы: метод поиска при помощи маркеров новизны («как сейчас говорят») и пределы компьютерных возможностей // Инструментарий русистики: корпусные подходы // Slavica Helsingiensia. №34. Хельсинки, 2008. 16 с.
  2. Срезневский И. И. Замечания об образовании слов из выражений // Зап. Академии Наук. Т. XXII, кн. II. Спб. 1873. 12 с.