47th International Philological Research Conference

Статистика служебных частей речи в определении стиля и тематики текстов

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Анна Денисовна Москвина
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2018-03-21
15:10 - 15:30

Ключевые слова, аннотация

квантитативная лингвистика; корпусная лингвистика; стиль; тематика текста; статистика

Тезисы

В связи с наблюдаемым многообразием текстов в различных письменных источниках возникает вопрос о критериях определения их типов. Решение этого вопроса важно для ряда прикладных задач, среди которых автоматическое формирование корпусов текстов, автоматическая классификация веб-документов [Рубинер 2014] и т.д. Существуют надежные формальные критерии стилистической диагностики текстов: морфосинтаксические (распределение слов по частям речи, статистические свойства конструкций, оценки синтаксической сложности и т.п.) [Мартыненко 1988, Марусенко 1990], графические (формулы, иноязычные обозначения, аббревиатуры и т.д.) [Воронов 2014]. Использование семантических критериев затруднено тем, что они с трудом поддаются формализации. Один из допустимых семантических критериев является распределение значений многозначных предлогов [Сичинава 2003]. В нашем докладе анализируется соотношение частот употребления предложных значений и конструкций, а также некоторых других типов служебных слов в текстах разных функциональных стилей и тематики. Материалом исследования послужили подкорпусы НКРЯ (http://www.ruscorpora.ru/), данные Частотного словаря современного русского языка [Ляшевская, Шаров 2009], корпусы кафедры математической лингвистики СПбГУ.
Воронов С.О. Фильтрация и тематическое моделирование коллекции научных документов. Долгопрудный, 2014.
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009.
Мартыненко Г.Я. Основы стилеметрии. Л., 1988.
Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л., 1990.
Рубинер В.И. Классификация интернет-страниц: алгоритмы // Структурная и прикладная лингвистика. Вып. 10. СПб., 2014.
Сичинава Д.В. Об одном лингвистическом параметре типологии текстов: коэффициент «под/над» // Научно-техническая информация. Серия 2. № 10. 2003.