Использование краудсорсинга для создания лингвистической разметки. Опыт проекта OpenCorpora.org
            Виктор Владиславович Бочаров
        
        
        Докладчик
        
        
        старший преподаватель
Санкт-Петербургский государственный университет
    Санкт-Петербургский государственный университет
193
2016-03-17
15:35 -
        15:55
    Ключевые слова, аннотация
    Доклад посвящен вопросам созданию лингвистической разметки открытого корпуса в рамках проекта OpenCorpora.org.
Тезисы
    Открытый корпус (OpenCorpora.org)
 — это проект по созданию свободно доступного (на условиях лицензии 
CC-BY-SA) размеченного корпуса современных текстов, написанных на 
русском языке. В рамках проекта планируется сделать качественную многоуровневую 
(морфологическую, синтаксическую и семантическую) разметку, которую 
можно было бы использовать для оценки точности систем автоматического 
анализа текста. В 2012 г. была начата по созданию морфологической
 разметки корпуса в 1,3 млн словоупотреблений силами волонтеров. На 
настоящий момент в этой работе приняли участие более 5000 носителей 
русского языка, большинство из которых не являются специалистами в 
области лингвистики. Участниками проекта было выполнено более 2 млн 
заданий, в которых нужно было определить ту или иную грамматическую 
характеристику слова в контексте предложения. Кроме морфологии силами 
волонтёров создаётся также разметка именованных сущностей.  В докладе будет доложено о полученных на сегодняшний день результатах.