Использование краудсорсинга для создания лингвистической разметки. Опыт проекта OpenCorpora.org
Виктор Владиславович Бочаров
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-03-17
15:35 -
15:55
Ключевые слова, аннотация
Доклад посвящен вопросам созданию лингвистической разметки открытого корпуса в рамках проекта OpenCorpora.org.
Тезисы
Открытый корпус (OpenCorpora.org)
— это проект по созданию свободно доступного (на условиях лицензии
CC-BY-SA) размеченного корпуса современных текстов, написанных на
русском языке. В рамках проекта планируется сделать качественную многоуровневую
(морфологическую, синтаксическую и семантическую) разметку, которую
можно было бы использовать для оценки точности систем автоматического
анализа текста. В 2012 г. была начата по созданию морфологической
разметки корпуса в 1,3 млн словоупотреблений силами волонтеров. На
настоящий момент в этой работе приняли участие более 5000 носителей
русского языка, большинство из которых не являются специалистами в
области лингвистики. Участниками проекта было выполнено более 2 млн
заданий, в которых нужно было определить ту или иную грамматическую
характеристику слова в контексте предложения. Кроме морфологии силами
волонтёров создаётся также разметка именованных сущностей. В докладе будет доложено о полученных на сегодняшний день результатах.