Автоматический анализ конструкций для определения стилистической принадлежности текстов
Анна Романовна Дубовик
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-04-20
15:00 -
15:20
Ключевые слова, аннотация
Исследование
основывается на предположении о том, что данные о сочетаемостных свойствах
целевых слов позволяют определить принадлежность текста к тому или иному
функциональному стилю. Для определения сочетаемостных свойств лексики и сборки
конструкций был разработан компьютерный инструмент контекстного профилирования.
Данные о конструкциях используются в процедурах автоматической стилистической
диагностики, для которых также было создано программное обеспечение.
Эксперименты проводились на материале русскоязычных корпусов текстов, собранных
и морфологически аннотированных автором.
Тезисы
Моделирование
сочетаемостных свойств лексических единиц и практическая реализация таких
моделей в инструментах для автоматического извлечения конструкций из текстов ― одна
из основных проблем в современной корпусной лингвистике. Существует множество
методов и инструментов исследования сочетаемости слов и автоматического
выделения конструкций в англоязычных текстах. Однако для русского языка
автоматизация выделения конструкций усложняется такими особенностями материала,
как свободный порядок слов и богатое словоизменение, которые снижают
предсказуемость формальной организации конструкций.
Материалом исследования послужили данные двух корпусов текстов русского языка, представляющих различные функциональные стили. Объем каждого корпуса ― 50 тыс. словоупотреблений. Программное обеспечение, необходимое для проведения исследования, было подготовлено на языке C# и представляет собой алгоритм формирования контекстных профилей для целевых слов и сборки конструкций для этих слов. Анализ данных подразумевает выявление левых и правых контекстов для целевых слов экспериментальной выборки и приписывание всем словам выборки грамматических характеристик. Систематизация полученных данных приводит к выявлению конструкций с целевыми словами: данные проходят автоматическую обработку, а затем проводится их исследовательская интерпретация. Также реализован алгоритм автоматического определения стилистической принадлежности обрабатываемого текста.
Нами была выявлена важность контекстного окружения при выделении конструкций из текстов и выдвинута гипотеза о том, что в текстах разных функциональных стилей контекстные профили слов отличаются ― соответственно, и сборка конструкций по контекстным профилям тоже приводит к разным результатам. В процессе исследования двух корпусов текстов, относящихся к разным функциональным стилям речи (научному и художественному), при помощи разработанной программы было обнаружено, что для текстов разных стилей характерны разные типы конструкций (для научных ― конструкции типа «существительное + существительное» и, в частности, конструкция «существительное + существительное в родительном падеже» (скорость света, сила притяжения), для художественных ― конструкции типа «глагол + существительное» (солнце освещает, ракета взлетает)). Анализ показал, что возможно классифицировать тексты по принадлежности их к разным функциональным стилям, опираясь на частотные характеристики исследованных сочетаний.
Материалом исследования послужили данные двух корпусов текстов русского языка, представляющих различные функциональные стили. Объем каждого корпуса ― 50 тыс. словоупотреблений. Программное обеспечение, необходимое для проведения исследования, было подготовлено на языке C# и представляет собой алгоритм формирования контекстных профилей для целевых слов и сборки конструкций для этих слов. Анализ данных подразумевает выявление левых и правых контекстов для целевых слов экспериментальной выборки и приписывание всем словам выборки грамматических характеристик. Систематизация полученных данных приводит к выявлению конструкций с целевыми словами: данные проходят автоматическую обработку, а затем проводится их исследовательская интерпретация. Также реализован алгоритм автоматического определения стилистической принадлежности обрабатываемого текста.
Нами была выявлена важность контекстного окружения при выделении конструкций из текстов и выдвинута гипотеза о том, что в текстах разных функциональных стилей контекстные профили слов отличаются ― соответственно, и сборка конструкций по контекстным профилям тоже приводит к разным результатам. В процессе исследования двух корпусов текстов, относящихся к разным функциональным стилям речи (научному и художественному), при помощи разработанной программы было обнаружено, что для текстов разных стилей характерны разные типы конструкций (для научных ― конструкции типа «существительное + существительное» и, в частности, конструкция «существительное + существительное в родительном падеже» (скорость света, сила притяжения), для художественных ― конструкции типа «глагол + существительное» (солнце освещает, ракета взлетает)). Анализ показал, что возможно классифицировать тексты по принадлежности их к разным функциональным стилям, опираясь на частотные характеристики исследованных сочетаний.