Размер корпуса и поиск коллокаций
Мария Владимировна Хохлова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Коллокации, корпус текстов, статистика, объем, данные, русский язык.
Тезисы
Вопрос необходимого и достаточного объема текстовых данных
обсуждается лингвистами довольно давно (см. [Пиотровский и др. 1977; Kilgarriff, Grefenstette 2003] и др.). На
протяжении долгого времени объем создаваемых корпусов был объективно ограничен техническими
возможностями. Брауновский корпус насчитывал 1 млн слов, объем BNC составил
100 млн слов, в то время как НКРЯ содержит более 600 млн слов. В гигакорпусах представлена
информация о нескольких десятках миллиардов слов (например, ruTenTen или
Aranea
Russicum
Maximum).
Применительно
к описанию лексической сочетаемости также важно понять, насколько полно корпусы
текстов разного объема отражают коллокации. В нашем исследовании мы
использовали подмножества корпуса Aranea Russicum Maximum разной
величины. В ходе экспериментов нами были рассмотрены низкочастотные коллокации
и их представленность в корпусах текстов, было произведено автоматическое
извлечение словосочетаний при помощи статистических методов. Полученные результаты сравнивались между корпусами. Коэффициенты MI и
Dice
извлекают
больше hapax
legomena,
слов с ошибками в лемматизации и написании при увеличении объема. Меры t-score и
Fisher
с
увеличением объема корпуса показывают большее количество коллокаций.