47th International Philological Research Conference

Репрезентация информации в базе данных коллокаций

Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2018-03-21
16:25 - 16:45

Ключевые слова, аннотация

база данных; словари; коллокации; сочетаемость; статистика

Тезисы

Доклад посвящен проекту по созданию интегрированной базы данных сочетаемости, содержащей автоматически извлеченные коллокации. Квантитативные методы, применяемые к корпусным данным, позволяют исследователям оценить полученные результаты. Статистические меры ассоциации используются для оценки силы связи внутри словосочетаний и дают возможность получать списки наиболее вероятных коллокаций. Словосочетания будут сопровождаться статистическими оценками и информацией из корпусов текстов и словарных источников. Цель проекта – представить информацию о сочетаемостных предпочтениях частотных лексем, снабженную дополнительными сведениями и примерами из общего и специализированных корпусов текстов и других ресурсов. Нами была разработана специализированная база данных MySQL для хранения пар слов и их корреляционных значений согласно разным коллокационным мерам, содержащая три основных таблицы: таблицу слов; таблицу коллокаций; таблицу метрик. Настоящий инструмент может быть использован в приложениях, связанных с автоматической обработкой текстов, например, при снятии неоднозначности, в лексикографических проектах, машинном переводе и обучении языкам.
Исследование выполнено при поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых № МК-2513.2018.6 «Исследование методов автоматического извлечения лексических конструкций на основе машинного обучения».