45th International Philological Research Conference

Использование краудсорсинга для создания лингвистической разметки. Опыт проекта OpenCorpora.org

Виктор Владиславович Бочаров
Докладчик
старший преподаватель
Санкт-Петербургский государственный университет

193
2016-03-17
15:35 - 15:55

Ключевые слова, аннотация

Доклад посвящен вопросам созданию лингвистической разметки открытого корпуса в рамках проекта OpenCorpora.org.


Тезисы

Открытый корпус (OpenCorpora.org) — это проект по созданию свободно доступного (на условиях лицензии CC-BY-SA) размеченного корпуса современных текстов, написанных на русском языке. В рамках проекта планируется сделать качественную многоуровневую (морфологическую, синтаксическую и семантическую) разметку, которую можно было бы использовать для оценки точности систем автоматического анализа текста. В 2012 г. была начата по созданию морфологической разметки корпуса в 1,3 млн словоупотреблений силами волонтеров. На настоящий момент в этой работе приняли участие более 5000 носителей русского языка, большинство из которых не являются специалистами в области лингвистики. Участниками проекта было выполнено более 2 млн заданий, в которых нужно было определить ту или иную грамматическую характеристику слова в контексте предложения. Кроме морфологии силами волонтёров создаётся также разметка именованных сущностей. В докладе будет доложено о полученных на сегодняшний день результатах.