Большие корпусы и частотный словарь: результаты сравнения
Мария Владимировна Хохлова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-03-18
16:25 -
16:45
Ключевые слова, аннотация
В
докладе представлены характеристики частотных существительных русского языка на
материале корпусов разных объемов и частотного словаря. Анализ показывает, что данные, приведенные в частотном словаре, и результаты,
полученные на корпусной основе, отличаются.
В докладе также дается обзор русских корпусов большого объема.
Тезисы
Задача
создания корпусов, содержащих большие данные, ставилась многократно, но только
с появлением широких технических возможностей решение данной задачи развилось в
отдельное направление.
Целью нашего исследования было сравнение результатов, выдаваемых системой Sketch Engine при работе с тремя корпусами разных объемов, и данных из словаря. [1] Нами были рассмотрены частотные характеристики ряда русских существительных. Для экспериментов были отобраны следующие корпусы русского языка: интернет-корпус Russian Web Corpus (147 млн токенов) и гигакорпус ruTenTen (18,28 млн токенов).
В основном тексты, входящие в состав интернет-корпусов русского языка, представляют собой материалы новостных ресурсов, блогов, рекламных сайтов, групп социальных сетей и др. Художественные тексты представлены не так широко, поэтому было решено обратиться к спискам частотной лексики, которые отражают именно данные функциональные стили. Нами были сформированы два списка слов. В первый список попали наиболее частотные существительные по словарю [там же] для текстов публицистики и другой нехудожественной литературы (эти две группы представлены в словаре отдельно): год1,2, время1,2, человек1,2, система, работа1,2, статья, дело1,2, случай, процесс, вопрос1,2, жизнь, день, страна и слово (индексами обозначены лексемы, которые приведены в обеих группах). Второй список состоит из существительных, относящихся к так называемой значимой лексике (то есть наиболее характерной) [там же] для нехудожественных текстов (статья, система, федерация, процесс, рисунок, вирус, исследование, использование, суд, метод) и публицистики (президент, театр, год, спектакль, правительство, компания, страна, фильм, реформа, выборы).
Общий вывод, который можно сделать на основе полученных данных, свидетельствует о том, что тексты больших корпусов отражают язык Сети. Результаты, приведенные в частотном словаре, были основаны на Национальном корпусе русского языка, что объясняет их сбалансированность. Существительные, которые оказались наиболее частотными в корпусе ruTenTen и в его миллионной выборке и не отраженные в списке результатов в частотном словаре (сайт, система, компания и Россия), отражают специфику текстов, взятых из Интернета, во-первых, из-за большого количества новостных ресурсов, во-вторых, ввиду направленности на описание содержания веб-страниц. Корпус Russian Web Corpus показывает бо́льшую согласованность в данных с частотным словарем, чем корпус ruTenTen.
Список литературы:
[1] Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.
Целью нашего исследования было сравнение результатов, выдаваемых системой Sketch Engine при работе с тремя корпусами разных объемов, и данных из словаря. [1] Нами были рассмотрены частотные характеристики ряда русских существительных. Для экспериментов были отобраны следующие корпусы русского языка: интернет-корпус Russian Web Corpus (147 млн токенов) и гигакорпус ruTenTen (18,28 млн токенов).
В основном тексты, входящие в состав интернет-корпусов русского языка, представляют собой материалы новостных ресурсов, блогов, рекламных сайтов, групп социальных сетей и др. Художественные тексты представлены не так широко, поэтому было решено обратиться к спискам частотной лексики, которые отражают именно данные функциональные стили. Нами были сформированы два списка слов. В первый список попали наиболее частотные существительные по словарю [там же] для текстов публицистики и другой нехудожественной литературы (эти две группы представлены в словаре отдельно): год1,2, время1,2, человек1,2, система, работа1,2, статья, дело1,2, случай, процесс, вопрос1,2, жизнь, день, страна и слово (индексами обозначены лексемы, которые приведены в обеих группах). Второй список состоит из существительных, относящихся к так называемой значимой лексике (то есть наиболее характерной) [там же] для нехудожественных текстов (статья, система, федерация, процесс, рисунок, вирус, исследование, использование, суд, метод) и публицистики (президент, театр, год, спектакль, правительство, компания, страна, фильм, реформа, выборы).
Общий вывод, который можно сделать на основе полученных данных, свидетельствует о том, что тексты больших корпусов отражают язык Сети. Результаты, приведенные в частотном словаре, были основаны на Национальном корпусе русского языка, что объясняет их сбалансированность. Существительные, которые оказались наиболее частотными в корпусе ruTenTen и в его миллионной выборке и не отраженные в списке результатов в частотном словаре (сайт, система, компания и Россия), отражают специфику текстов, взятых из Интернета, во-первых, из-за большого количества новостных ресурсов, во-вторых, ввиду направленности на описание содержания веб-страниц. Корпус Russian Web Corpus показывает бо́льшую согласованность в данных с частотным словарем, чем корпус ruTenTen.
Список литературы:
[1] Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.