XXI Открытая конференция студентов-филологов в СПбГУ

Научно-исследовательский комплекс предобработки текстов и постобработки результатов в системе SketchEngine

Андрей Александрович Огай
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

ауд. 193
2018-04-20
14:55 - 15:10

Ключевые слова, аннотация

Система SketchEngine (сайт sketchengine.co.uk), созданная британским лингвистом Адамом Килгариффом, изучает грамматическое и коллокационное поведение слов на основе данных веб-корпусов, показывая с помощью статистических таблиц распространенность в языке тех или иных связей между разными словами. Данный доклад посвящен способам работы с этой системой: будут рассмотрены и показаны различные разработанные автором инструменты, позволяющие автоматически измерять и сравнивать полученную с помощью SketchEngine статистическую информацию, а также качественно визуализировать ее.

Тезисы

Хотя корпусная лингвистика — относительно молодая по меркам науки специальность, окончательно оформившаяся только к концу прошлого столетия, она, тем не менее, является в наше время одной из ведущих областей языкознания. Именно поэтому, а также из-за того, что современные языковые корпуса за счет своих размеров мало поддаются ручной обработке, для нужд корпусной лингвистики разрабатывались вспомогательные инструменты, позволяющие обрабатывать получаемые из корпусов статистические данные автоматически.
Одним из таких инструментов является созданная британским лингвистом Адамом Килгариффом система SketchEngine, строящая на основе корпусов таблицы («скетчи»), отражающие грамматическое и коллокационное поведение слов: какие слова чаще всего употребляются вместе, наиболее распространенные отношения между ними и т. д. За 13 лет своего существования SketchEngine пережила заметный рост и нашла применение в самых разных областях языкознания: разумным следующим шагом было бы создание новых инструментов, позволявших бы более эффективно работать с производимыми ею данными.
В докладе будут рассмотрены и представлены новые разработанные автором способы обрабатывать и показать информацию из «скетчей» системы SketchEngine. В частности, будут затронуты вопросы более точного измерения полученных статистических данных с помощью автоматического сравнения и соотнесения различных видов мер: Mi, T-Score, Log-likelilhood и т. д. Кроме того, будут рассмотрены методы подготовки получаемых из интернета текстов для их внедрения в корпус, которые позволят удалять лишнюю информацию и одновременно учитывать те факторы, которые в противном случае оказались бы за рамками корпуса (таблицы, рисунки и т. д.), а также способы визуализации итоговых данных.