Репрезентация информации в базе данных коллокаций
Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2018-03-21
16:25 -
16:45
Ключевые слова, аннотация
база данных; словари; коллокации; сочетаемость; статистика
Тезисы
Доклад
посвящен проекту по созданию интегрированной базы данных сочетаемости,
содержащей автоматически извлеченные коллокации. Квантитативные методы,
применяемые к корпусным данным, позволяют исследователям оценить полученные
результаты. Статистические меры ассоциации используются для оценки силы связи
внутри словосочетаний и дают возможность получать списки наиболее вероятных
коллокаций. Словосочетания будут сопровождаться статистическими оценками и
информацией из корпусов текстов и словарных источников. Цель проекта –
представить информацию о сочетаемостных предпочтениях частотных лексем,
снабженную дополнительными сведениями и примерами из общего и
специализированных корпусов текстов и других ресурсов. Нами была разработана
специализированная база данных MySQL для хранения пар слов и их корреляционных
значений согласно разным коллокационным мерам, содержащая три основных таблицы:
таблицу слов; таблицу коллокаций; таблицу метрик. Настоящий инструмент может
быть использован в приложениях, связанных с автоматической обработкой текстов,
например, при снятии неоднозначности, в лексикографических проектах, машинном
переводе и обучении языкам.
Исследование выполнено при поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых № МК-2513.2018.6 «Исследование методов автоматического извлечения лексических конструкций на основе машинного обучения».
Исследование выполнено при поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых № МК-2513.2018.6 «Исследование методов автоматического извлечения лексических конструкций на основе машинного обучения».