Глагольные конструкции в ОРД: поиск инвариантов
Амалия Рауфовна Юсупова
Докладчик
студент 2 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Ключевые слова, аннотация
Доклад посвящен глагольным конструкциям устной речи в аспекте их структурных особенностей. Материалом стали 97 конструкций из звукового корпуса «Один речевой день», полученных в результате разметки устойчивых неоднословных единиц. Особое внимание в исследовании уделяется проблеме включения в инвариант факультативных частиц и обозначения единиц со слабой вариативностью в качестве переменных. В результате были выработаны рекомендации для моделирования инвариантов конструкций и создана база глагольных конструкций устной речи.
Тезисы
Ключевые слова: корпус «Один речевой день»; конструкция; устойчивая неоднословная единица
Исследование посвящено конструкциям в звуковом корпусе «Один речевой день» (ОРД). В работе проблематизируются такие теоретические аспекты составления инвариантов, как включение в состав конструкции факультативных элементов (например, распространенных частиц) и обозначение единиц, обладающих слабой вариативностью, в виде переменных.
Практическая сторона работы включает в себя проверку и анализ 97 глагольных конструкций, найденных экспертами в результате ручной разметки устойчивых неоднословных единиц в корпусе объемом 1 млн. словоупотреблений. На этом этапе предполагается уточнение статуса конструкций: некоторые из единиц, обозначенных в ОРД как конструкции, не соответствуют даже формальным критериям выделения конструкций (например, не содержат переменных), а часть устойчивых неоднословных единиц обозначена как конструкции только по второму классу, — для таких единиц в корпусе указана основная функция (например, «прецедентный текст»). Такие случаи анализировались наравне с другими.
Далее для обозначения границ вариативности найденные конструкции сверялись с данными Национального корпуса русского языка, а сами инварианты анализировались при помощи Constructicon-а и Pragmaticon-а. Constructicon содержит информацию о структуре конструкции, однако недостаток этого корпуса в том, что зачастую одна и та же конструкция с возможностью заполнения какой-либо переменной словами разных частей речи (например, черт знает как и черт знает сколько) обозначается не как одна конструкция, а как несколько разных. Чтобы избежать такой неточности, рассматриваемые конструкции анализировались не только с точки зрения формальной структуры, но и с точки зрения семантики, и окончательное решение о выделении одного общего инварианта или разграничении двух инвариантов принималось исходя из семантики выражений.
Pragmaticon — это корпус, в котором собраны русские дискурсивные формулы. В корпусе тоже обозначается структура конструкции, однако она содержит информацию не о грамматических характеристиках переменных внутри конструкции, а о «дискурсивной структуре»: например, выражение черт его знает обозначено как двухчастное, так как представляет собой ответную реплику со значением ‘не знаю’ и реализуется в диалоге. Помимо этого в Pragmaticon-е указываются прагматическая функция единицы, жесты, которыми она сопровождается, и ее интонационная структура.
Обращение к приведенным корпусам, таким образом, позволило уточнить инвариантную структуру обнаруженных глагольных конструкций и проанализировать несоответствия между выведенными в работе инвариантами и инвариантами, представленными в корпусах.
Итогом работы стала база размеченных глагольных конструкций устной речи. Выведенные инварианты — это только первый этап анализа конструкций в ОРД. Методика, разработанная в настоящем исследовании, в дальнейшем позволит уточнить инварианты для всех остальных типов конструкций и автоматизировать их разметку в Корпусе устной речи молодежи.
Исследование посвящено конструкциям в звуковом корпусе «Один речевой день» (ОРД). В работе проблематизируются такие теоретические аспекты составления инвариантов, как включение в состав конструкции факультативных элементов (например, распространенных частиц) и обозначение единиц, обладающих слабой вариативностью, в виде переменных.
Практическая сторона работы включает в себя проверку и анализ 97 глагольных конструкций, найденных экспертами в результате ручной разметки устойчивых неоднословных единиц в корпусе объемом 1 млн. словоупотреблений. На этом этапе предполагается уточнение статуса конструкций: некоторые из единиц, обозначенных в ОРД как конструкции, не соответствуют даже формальным критериям выделения конструкций (например, не содержат переменных), а часть устойчивых неоднословных единиц обозначена как конструкции только по второму классу, — для таких единиц в корпусе указана основная функция (например, «прецедентный текст»). Такие случаи анализировались наравне с другими.
Далее для обозначения границ вариативности найденные конструкции сверялись с данными Национального корпуса русского языка, а сами инварианты анализировались при помощи Constructicon-а и Pragmaticon-а. Constructicon содержит информацию о структуре конструкции, однако недостаток этого корпуса в том, что зачастую одна и та же конструкция с возможностью заполнения какой-либо переменной словами разных частей речи (например, черт знает как и черт знает сколько) обозначается не как одна конструкция, а как несколько разных. Чтобы избежать такой неточности, рассматриваемые конструкции анализировались не только с точки зрения формальной структуры, но и с точки зрения семантики, и окончательное решение о выделении одного общего инварианта или разграничении двух инвариантов принималось исходя из семантики выражений.
Pragmaticon — это корпус, в котором собраны русские дискурсивные формулы. В корпусе тоже обозначается структура конструкции, однако она содержит информацию не о грамматических характеристиках переменных внутри конструкции, а о «дискурсивной структуре»: например, выражение черт его знает обозначено как двухчастное, так как представляет собой ответную реплику со значением ‘не знаю’ и реализуется в диалоге. Помимо этого в Pragmaticon-е указываются прагматическая функция единицы, жесты, которыми она сопровождается, и ее интонационная структура.
Обращение к приведенным корпусам, таким образом, позволило уточнить инвариантную структуру обнаруженных глагольных конструкций и проанализировать несоответствия между выведенными в работе инвариантами и инвариантами, представленными в корпусах.
Итогом работы стала база размеченных глагольных конструкций устной речи. Выведенные инварианты — это только первый этап анализа конструкций в ОРД. Методика, разработанная в настоящем исследовании, в дальнейшем позволит уточнить инварианты для всех остальных типов конструкций и автоматизировать их разметку в Корпусе устной речи молодежи.