Выявление лексико-грамматических контекстных маркеров для снятия лексической неоднозначности слов
Анастасия Георгиевна Седова
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2015-04-07
16:10 -
16:30
Ключевые слова, аннотация
В докладе рассматривается подход к снятию лексической неоднозначности с помощью контекстных маркеров. Данная проблема представляется особенно актуальной при разработке методов автоматического анализа текста и информационного поиска. В рамках проекта RussNet были исследованы выборки контекстов из корпуса для высокочастотных слов, уточнена структура их значений и выявлены наборы контекстных маркеров в качестве основания семантической классификации. Результаты исследования представлены в докладе.
Тезисы
Задача снятия лексической неоднозначности слов является одной из наиболее актуальных при разработке методов автоматического анализа текста и информационного поиска. Для её решения активно применяются словари типа WordNet, базовыми структурными единицами которых являются синонимические ряды (синсеты), связанные между собой различными семантическими отношениями (родовидовыми отношениями, отношениями часть-целое и др.).
Данное исследование выполняется в рамках проекта RussNet — разработки компьютерного словаря типа WordNet для русского языка. Оно направлено на решение задачи снятия неоднозначности с помощью контекстных маркеров, на основании которых можно выбрать нужное значение полисемантичного слова. Для выполнения поставленной цели исследовались выборки контекстов высокочастотных слов из корпуса текстов, в которых фиксировались семантические классы, в функции которых употреблялись рассматриваемые лексемы, лексические и грамматические характеристики контекстов, указывающие семантическую характеристику.
Исследование позволило выявить наборы лексико-грамматических маркеров и различных семантических структур, в которых то или иное слово употребляется в зависимости от значения. Например, для слова «город» характерно использование в значении «населенный пункт, место обитания людей» в конструкции «житель города», «население города», однако в конструкции «в городе» реализуется несколько значений: «пространственный объект», «место обитания людей» и др. На основании анализа контекстов были выделены наборы грамматических форм, предложные конструкции и лексические сочетания, характерные для семантических классов значений. Они обсуждаются в докладе.
Данное исследование выполняется в рамках проекта RussNet — разработки компьютерного словаря типа WordNet для русского языка. Оно направлено на решение задачи снятия неоднозначности с помощью контекстных маркеров, на основании которых можно выбрать нужное значение полисемантичного слова. Для выполнения поставленной цели исследовались выборки контекстов высокочастотных слов из корпуса текстов, в которых фиксировались семантические классы, в функции которых употреблялись рассматриваемые лексемы, лексические и грамматические характеристики контекстов, указывающие семантическую характеристику.
Исследование позволило выявить наборы лексико-грамматических маркеров и различных семантических структур, в которых то или иное слово употребляется в зависимости от значения. Например, для слова «город» характерно использование в значении «населенный пункт, место обитания людей» в конструкции «житель города», «население города», однако в конструкции «в городе» реализуется несколько значений: «пространственный объект», «место обитания людей» и др. На основании анализа контекстов были выделены наборы грамматических форм, предложные конструкции и лексические сочетания, характерные для семантических классов значений. Они обсуждаются в докладе.