База данных, содержащая информацию о частотности различных грамматических характеристик и окончаний русских существительных
Мария Владимировна Самойлова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
191
2014-03-13
15:30 -
16:00
Ключевые слова, аннотация
Представителю
любой лингвистической дисциплины или школы требуются данные о частотности различных
грамматических характеристик. В частности, для психолингвистики такого рода
сведения являются ключевыми. В данной работе мы представляем базу данных
русских существительных, составленную на основе подкорпуса Национального корпуса русского языка со снятой
грамматической омонимией. В базе отражена частотность следующих грамматических
характеристик: род, число, падеж, одушевленность, склонение (по отдельности и в
различных сочетаниях), а также частотность различных окончаний.
Тезисы
Представителю любой лингвистической дисциплины или школы требуются данные о частотности
различных грамматических характеристик. В частности, в психолингвистике
сведения такого рода могут потребоваться как на этапе отбора экспериментального
материала, так и для интерпретации полученных результатов. В данной работе мы
представляем базу данных русских существительных, составленную на основе подкорпуса
Национального корпуса русского языка со снятой
грамматической омонимией (база
пока не доступна в сети Интернет, хотя работа над ней уже закончена). В
базе отражена частотность следующих грамматических характеристик: род, число,
падеж, одушевленность, склонение (по отдельности и в различных сочетаниях), а
также частотность различных окончаний.Приведем пример использования базы.
Предположим, мы хотим сравнить дательный и предложный падежи. Из базы можно
узнать, что в целом предложный примерно в два раза частотней дательного, однако
их соотношение оказывается
более сложным, если учитывать число и/или одушевленность. Так, дательный
частотней предложного у одушевленных существительных, особенно в единственном
числе. Теперь представим, что нас интересует морфологическая неоднозначность.
Во втором склонении у форм дательного и предложного падежа в единственном
совпадает окончание (-е). Используя базу данных, мы можем проверить,
совпадает ли распределение форм единственного числа между дательным и
предложным падежом во втором склонении с распределением всех таких форм в
целом. Также мы можем, например, посмотреть распределение всех форм на -е между различными падежами (это
окончание свойственно дательному падежу только во втором склонении, а
предложному – также в первом) или узнать, насколько характерно то или иное
окончание для определенной формы (т.е. какой процент форм в определенном числе
и падеже имеет то или иное окончание).