XX Открытая конференция студентов-филологов в СПбГУ

Инструмент квантитативных типологических исследований

Елена Ивановна Шакурова
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики»

129
2017-04-20
14:20 - 14:35

Ключевые слова, аннотация

В докладе обсуждается инструмент типологических исследований, позволяющий автоматически сопоставлять сочетаемости семантически близких прилагательных (ср. влажный vs. мокрый) и создавать сравнительные таблицы и графики. Работа основана на идее дистрибутивной семантики, согласно которой лингвистические единицы имеют близкие значение, если они встречаются в схожих контекстах. Сравнение проводится на основе данных о биграммах, полученных из ресурса Google Bigrams. Инструмент реализован для русского, английского и немецкого языков.

Тезисы

Настоящая работа посвящена разработке инструмента для решения задач по лексической типологии. Существует дистрибутивная гипотеза, согласно которой лингвистические единицы имеют близкие значения, если они встречаются в схожих контекстах. В современной лингвистике стоит вопрос о существовании прилагательных, различающихся исключительно по степени проявления признака. Например, считается, что синонимы влажный, мокрый, сырой различаются по количеству содержания влаги. Если это верно, тогда, согласно дистрибутивной гипотезе, существительные, сочетающиеся с такими прилагательными, будут иметь одинаковое количественное распределение и схожую сочетаемость.
Чтобы проверить, действительно ли различия между исследуемыми прилагательными сводятся только к степени проявления признака, было написано две программы для анализа сочетаемости лексических единиц. Первая программа на языке Python позволяет на основе анализа биграмм из Google Ngrams составлять сравнительные таблицы, в которых показано, сколько раз с каким существительным встретилось каждое из исследуемых прилагательных. Используя вторую программу на языке R, с помощью полученных сравнительных таблиц можно построить сравнительные графики, показывающие количественное распределение сочетаемости прилагательных с  существительными, разбитыми на семантические группы. С помощью полученной таблицы и графиков анализ окружения лексических единиц и различия в сочетаемости становится удобнее. Например, изучая, с какими группами прилагательных сочетается одно существительное и не сочетается другое, можно делать выводы о семантике существительных (поскольку в семантике имени содержатся ограничения на сочетаемость). Инструмент поддерживает три языка: русский, немецкий и английский. Благодаря написанным программам было проведено исследование, проверяющее гипотезу о том, что противопоставление между лексемами не может сводиться исключительно к идее степени. Полученные с помощью скриптов таблицы и графики анализировались с точки зрения ограничений, которые семантика существительных накладывает на семантику изучаемых прилагательных. Вышеописанные программы – удобный инструмент лексико-типологических исследований. Код программ можно найти по ссылке https://github.com/Shakurova/ngrams .