XIX Открытая конференция студентов-филологов в СПбГУ

Проблема разметки неоднословий в электронном тезаурусе YARN

Екатерина Алексеевна Федюкова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

193
2016-04-20
14:20 - 14:40

Ключевые слова, аннотация

В докладе рассматривается разметка неоднословных единиц для добавления их в электронный тезаурус YARN (Yet Another RussNet). Приводятся примеры проблем и способы их решения.

Тезисы

В своей работе я исследую проблему разметки сочетаний в электронном тезаурусе YARN.
Тезаурус — это словарь, в котором материал упорядочен по смыслу, а не по алфавиту. Соответственно, он дает нам возможность обнаружить множество смысловых отношений между словами. Например, в обычном словаре «весна» окажется довольно далеко от «лета», а в тезаурусе они будут находиться рядом.
YARN (Yet Another RussNet) — один из активно разрабатываемых сейчас электронных тезаурусов на русском языке. В него на данный момент инкорпорированы неоднословия, но их довольно мало — около 22-х тысяч, и в целом такие выражения описаны в лексикографии достаточно неоднозначно, что является актуальной проблемой для многих сфер прикладной лингвистики.
Для выявления проблем, связанных с разметкой неоднословных единиц при добавлении их в тезаурус, а также для поиска решений этих проблем, я обработала более пятисот сочетаний. Для каждого из них предпринималась попытка создания синсетов с неоднословиями. Все возникшие проблемы были проанализированы и классифицированы. Их классификация будет представлена в докладе.
Приведу пример проблемы, возникающей в ходе работы.
Иногда выражение можно заменить опорным словом. Рассмотрим, например, сочетание войсковой атаман. Интерфейс тезауруса предлагает нам указать синонимы к выражению, и одним из них будет слово атаман, так как оно не вступает в родовидовые отношения с выражением. В этом случае неоднословие может оказаться случайным сочетанием, а они запрещены для добавления. Проверить это предлагается при помощи Национального корпуса русского языка  войсковой атаман в разных падежных формах имеет 132 вхождения в НКРЯ, так что это сочетание можно считать употребительным, и поэтому оно включается в тезаурус.
Решение обозначенных проблем необходимо в области лексикографической разметки неоднословных выражений, что актуально как непосредственно для разработки тезауруса, так и для программ по автоматической обработке текста.