Методы построения и описания семантических полей
Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Екатерина Сергеевна Гвоздёва
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2019-03-21
15:35 -
15:55
Ключевые слова, аннотация
Семантическое поле, концепт «империя»,
корпусы текстов, дистрибутивно-статистический
анализ, тезаурус.
Тезисы
Представлены текущие результаты
разработки методологии формирования
семантических полей на основе корпусных
данных. Семантическое поле — это
совокупность лексических единиц,
охватывающих определенную область
языковой компетенции человеческого
опыта и образующих автономную микросистему
с одним или несколькими центрами. Метод
решения задачи можно сформулировать
так: выявление парадигматических связей
через синтагматические. В настоящее
время наличие больших корпусов и «умных»
лингвистических алгоритмов предоставляют
такую возможность и дают надежду достичь
разумных результатов.
Первая
задача исследования — разработать
методологию наполнения семантических
полей лексическими единицами на основе
морфологически размеченных корпусов.
Для работы с корпусами используется
система Sketch Engine, реализующая методы
дистрибутивно-статистического анализа.
Для заданных слов строится гнездо
семантических связанных лексем с
автоматически вычисленными показателями
силы связи между ними. Вторая задача
исследования — выделить типы отношений
внутри поля и дать статистическое
описание единиц поля, получить данные
об использовании полисемичных единиц
поля, а именно, в каких долях они
представлены в текстах в том или ином
значении.
Задача
решается на примере поля «империя» в
русском, английском, немецком и чешском
языках. Текстовый материал представлен
корпусами самой системы и созданными
специального для целей исследования.
По результатам экспериментов будут
определены дальнейшие шаги для
усовершенствования методологии.
Наполнение семантического поля будет
представлено в виде вычислительного
ресурса — тезауруса с количественными
параметрами элементов поля. На завершающей
стадии предполагается
лингвистическая и культурно-историческая
корреляции четырех построенных
тезаурусов.