49th International Philological Conference (IPC 2020) in Homage to Professor Ludmila Verbitskaya (1936-2019)

Размер корпуса и поиск коллокаций

Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Коллокации, корпус текстов, статистика, объем, данные, русский язык.




Тезисы

Вопрос необходимого и достаточного объема текстовых данных обсуждается лингвистами довольно давно (см. [Пиотровский и др. 1977; Kilgarriff, Grefenstette 2003] и др.). На протяжении долгого времени объем создаваемых корпусов был объективно ограничен техническими возможностями. Брауновский корпус насчитывал 1 млн слов, объем BNC составил 100 млн слов, в то время как НКРЯ содержит более 600 млн слов. В гигакорпусах представлена информация о нескольких десятках миллиардов слов (например, ruTenTen или Aranea Russicum Maximum).
Применительно к описанию лексической сочетаемости также важно понять, насколько полно корпусы текстов разного объема отражают коллокации. В нашем исследовании мы использовали подмножества корпуса Aranea Russicum Maximum разной величины. В ходе экспериментов нами были рассмотрены низкочастотные коллокации и их представленность в корпусах текстов, было произведено автоматическое извлечение словосочетаний при помощи статистических методов. Полученные результаты сравнивались между корпусами. Коэффициенты MI и Dice извлекают больше hapax legomena, слов с ошибками в лемматизации и написании при увеличении объема. Меры t-score и Fisher с увеличением объема корпуса показывают большее количество коллокаций.