Большие корпусы и частотный словарь: результаты сравнения

Maria Vladimirovna Khokhlova

Докладчик

доцент
Санкт-Петербургский государственный университет

193
2016-03-18

16:25 - 16:45

Ключевые слова, аннотация

В докладе представлены характеристики частотных существительных русского языка на материале корпусов разных объемов и частотного словаря. Анализ показывает, что данные, приведенные в частотном словаре, и результаты, полученные на корпусной основе, отличаются. В докладе также дается обзор русских корпусов большого объема.

Тезисы

Задача создания корпусов, содержащих большие данные, ставилась многократно, но только с появлением широких технических возможностей решение данной задачи развилось в отдельное направление.
Целью нашего исследования было сравнение результатов, выдаваемых системой Sketch Engine при работе с тремя корпусами разных объемов, и данных из словаря. [1] Нами были рассмотрены частотные характеристики ряда русских существительных. Для экспериментов были отобраны следующие корпусы русского языка: интернет-корпус Russian Web Corpus (147 млн токенов) и гигакорпус ruTenTen (18,28 млн токенов).
В основном тексты, входящие в состав интернет-корпусов русского языка, представляют собой материалы новостных ресурсов, блогов, рекламных сайтов, групп социальных сетей и др. Художественные тексты представлены не так широко, поэтому было решено обратиться к спискам частотной лексики, которые отражают именно данные функциональные стили. Нами были сформированы два списка слов. В первый список попали наиболее частотные существительные по словарю [там же] для текстов публицистики и другой нехудожественной литературы (эти две группы представлены в словаре отдельно): год1,2, время1,2, человек1,2, система, работа1,2, статья, дело1,2, случай, процесс, вопрос1,2, жизнь, день, страна и слово (индексами обозначены лексемы, которые приведены в обеих группах). Второй список состоит из существительных, относящихся к так называемой значимой лексике (то есть наиболее характерной) [там же] для нехудожественных текстов (статья, система, федерация, процесс, рисунок, вирус, исследование, использование, суд, метод) и публицистики (президент, театр, год, спектакль, правительство, компания, страна, фильм, реформа, выборы).
Общий вывод, который можно сделать на основе полученных данных, свидетельствует о том, что тексты больших корпусов отражают язык Сети. Результаты, приведенные в частотном словаре, были основаны на Национальном корпусе русского языка, что объясняет их сбалансированность. Существительные, которые оказались наиболее частотными в корпусе ruTenTen и в его миллионной выборке и не отраженные в списке результатов в частотном словаре (сайт, система, компания и Россия), отражают специфику текстов, взятых из Интернета, во-первых, из-за большого количества новостных ресурсов, во-вторых, ввиду направленности на описание содержания веб-страниц. Корпус Russian Web Corpus показывает бо́льшую согласованность в данных с частотным словарем, чем корпус ruTenTen.

Список литературы:
[1] Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

45th International Philological Research Conference

Большие корпусы и частотный словарь: результаты сравнения

Ключевые слова, аннотация

Тезисы