«Ключевые слова» русской прозы начала XX в.
Анна Андреевна Гусева
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Ключевые слова, аннотация
«Ключевость» — статистическая мера, отражающая наиболее содержательные и важные слова рассматриваемого текста. По этому показателю можно определить стиль отдельного взятого текста или корпуса текстов, а также авторский стиль писателя. В результате исследования, проведенного на материале Корпуса русского рассказа первой трети XX века, получены «ключевые слова» русской прозы как для всего периода 1900—1930, так и для четырех последовательных хронологических эпох. Эти данные сравниваются с результатами, полученными при обработке того же корпуса с помощью инструментария TXM (мера «специфичности»).
Тезисы
Понятие «ключевости» (англ., «keyword», «keywordness») ввел американский лингвист Майк Скотт, разработавший программу для компьютерного анализа текста WordSmith [Scott, 1996]. Множество его работ посвящены изучению особенностей ключевых слов и методам извлечения их из текста. «Ключевость» — статистическая мера, отражающая наиболее содержательные и важные слова рассматриваемого текста [Scott and Tribble, 2006]. По этому показателю можно определить стиль отдельного взятого текста или корпуса текстов, а также и стиль автора. Цель настоящей работы — выявление ключевых слов русской прозы и оценка их репрезентативности. В рамках данного исследования произведен анализ русской художественной прозы на материале корпуса русского рассказа первой трети XX в. Проанализирована подвыборка, состоящая из 310 текстов различных авторов и поделенная на четыре хронологических периода с 1900 по 1930 гг. Подсчет ключевых слов производился с помощью корпусного менеджера AntConc. Помимо функции составления изучаемых списков, программа дает возможность выбирать различные статистические настройки, что также стало предметом настоящего исследования. Одной из задач работы стал анализ того, как влияет выбор той или иной функции на получаемые списки ключевых слов. В результате исследования были получены «ключевые слова» русской прозы начала XX в. как для всего периода 1900—1930, так и для четырех хронологических эпох: 1) начало века, 2) Первая мировая война, 3) революции 1917 г. и Гражданская война, 3) становление Советского государства. Сравниваются полученные данные с результатами, полученными при обработке того же текстового корпуса с помощью инструментария TXM (мера «специфичности»).