XIX Открытая конференция студентов-филологов в СПбГУ

Автоматический анализ конструкций для определения стилистической принадлежности текстов

Анна Романовна Дубовик
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

193
2016-04-20
15:00 - 15:20

Ключевые слова, аннотация

Исследование основывается на предположении о том, что данные о сочетаемостных свойствах целевых слов позволяют определить принадлежность текста к тому или иному функциональному стилю. Для определения сочетаемостных свойств лексики и сборки конструкций был разработан компьютерный инструмент контекстного профилирования. Данные о конструкциях используются в процедурах автоматической стилистической диагностики, для которых также было создано программное обеспечение. Эксперименты проводились на материале русскоязычных корпусов текстов, собранных и морфологически аннотированных автором.

Тезисы

Моделирование сочетаемостных свойств лексических единиц и практическая реализация таких моделей в инструментах для автоматического извлечения конструкций из текстов ― одна из основных проблем в современной корпусной лингвистике. Существует множество методов и инструментов исследования сочетаемости слов и автоматического выделения конструкций в англоязычных текстах. Однако для русского языка автоматизация выделения конструкций усложняется такими особенностями материала, как свободный порядок слов и богатое словоизменение, которые снижают предсказуемость формальной организации конструкций.
Материалом исследования послужили данные двух корпусов текстов русского языка, представляющих различные функциональные стили. Объем каждого корпуса ― 50 тыс. словоупотреблений. Программное обеспечение, необходимое для проведения исследования, было подготовлено на языке C# и представляет собой алгоритм формирования контекстных профилей для целевых слов и сборки конструкций для этих слов. Анализ данных подразумевает выявление левых и правых контекстов для целевых слов экспериментальной выборки и приписывание всем словам выборки грамматических характеристик. Систематизация полученных данных приводит к выявлению конструкций с целевыми словами: данные проходят автоматическую обработку, а затем проводится их исследовательская интерпретация. Также реализован алгоритм автоматического определения стилистической принадлежности обрабатываемого текста.
Нами была выявлена важность контекстного окружения при выделении конструкций из текстов и выдвинута гипотеза о том, что в текстах разных функциональных стилей контекстные профили слов отличаются ― соответственно, и сборка конструкций по контекстным профилям тоже приводит к разным результатам. В процессе исследования двух корпусов текстов, относящихся к разным функциональным стилям речи (научному и художественному), при помощи разработанной программы было обнаружено, что для текстов разных стилей характерны разные типы конструкций (для научных ― конструкции типа «существительное + существительное» и, в частности, конструкция «существительное + существительное в родительном падеже» (скорость света, сила притяжения), для художественных ― конструкции типа «глагол + существительное» (солнце освещает, ракета взлетает)). Анализ показал, что возможно классифицировать тексты по принадлежности их к разным функциональным стилям, опираясь на частотные характеристики исследованных сочетаний.