Инструмент квантитативных типологических исследований
Елена Ивановна Шакурова
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
129
2017-04-20
14:20 -
14:35
Ключевые слова, аннотация
В докладе обсуждается инструмент типологических исследований, позволяющий автоматически сопоставлять сочетаемости семантически близких прилагательных (ср. влажный vs. мокрый) и создавать сравнительные таблицы и графики. Работа основана на идее дистрибутивной семантики, согласно которой лингвистические единицы имеют близкие значение, если они встречаются в схожих контекстах. Сравнение проводится на основе данных о биграммах, полученных из ресурса Google Bigrams. Инструмент реализован для русского, английского и немецкого языков.
Тезисы
Настоящая работа посвящена разработке инструмента для
решения задач по лексической типологии. Существует дистрибутивная гипотеза,
согласно которой лингвистические единицы имеют близкие значения, если они
встречаются в схожих контекстах. В современной лингвистике стоит вопрос
о существовании прилагательных, различающихся исключительно по степени
проявления признака. Например, считается,
что синонимы влажный, мокрый, сырой
различаются по количеству содержания влаги. Если это верно, тогда, согласно
дистрибутивной гипотезе, существительные, сочетающиеся с такими
прилагательными, будут иметь одинаковое количественное распределение и схожую
сочетаемость.
Чтобы проверить, действительно ли различия между исследуемыми прилагательными сводятся только к степени проявления признака, было написано две программы для анализа сочетаемости лексических единиц. Первая программа на языке Python позволяет на основе анализа биграмм из Google Ngrams составлять сравнительные таблицы, в которых показано, сколько раз с каким существительным встретилось каждое из исследуемых прилагательных. Используя вторую программу на языке R, с помощью полученных сравнительных таблиц можно построить сравнительные графики, показывающие количественное распределение сочетаемости прилагательных с существительными, разбитыми на семантические группы. С помощью полученной таблицы и графиков анализ окружения лексических единиц и различия в сочетаемости становится удобнее. Например, изучая, с какими группами прилагательных сочетается одно существительное и не сочетается другое, можно делать выводы о семантике существительных (поскольку в семантике имени содержатся ограничения на сочетаемость). Инструмент поддерживает три языка: русский, немецкий и английский. Благодаря написанным программам было проведено исследование, проверяющее гипотезу о том, что противопоставление между лексемами не может сводиться исключительно к идее степени. Полученные с помощью скриптов таблицы и графики анализировались с точки зрения ограничений, которые семантика существительных накладывает на семантику изучаемых прилагательных. Вышеописанные программы – удобный инструмент лексико-типологических исследований. Код программ можно найти по ссылке https://github.com/Shakurova/ngrams .
Чтобы проверить, действительно ли различия между исследуемыми прилагательными сводятся только к степени проявления признака, было написано две программы для анализа сочетаемости лексических единиц. Первая программа на языке Python позволяет на основе анализа биграмм из Google Ngrams составлять сравнительные таблицы, в которых показано, сколько раз с каким существительным встретилось каждое из исследуемых прилагательных. Используя вторую программу на языке R, с помощью полученных сравнительных таблиц можно построить сравнительные графики, показывающие количественное распределение сочетаемости прилагательных с существительными, разбитыми на семантические группы. С помощью полученной таблицы и графиков анализ окружения лексических единиц и различия в сочетаемости становится удобнее. Например, изучая, с какими группами прилагательных сочетается одно существительное и не сочетается другое, можно делать выводы о семантике существительных (поскольку в семантике имени содержатся ограничения на сочетаемость). Инструмент поддерживает три языка: русский, немецкий и английский. Благодаря написанным программам было проведено исследование, проверяющее гипотезу о том, что противопоставление между лексемами не может сводиться исключительно к идее степени. Полученные с помощью скриптов таблицы и графики анализировались с точки зрения ограничений, которые семантика существительных накладывает на семантику изучаемых прилагательных. Вышеописанные программы – удобный инструмент лексико-типологических исследований. Код программ можно найти по ссылке https://github.com/Shakurova/ngrams .