Проблема разметки неоднословий в электронном тезаурусе YARN
Екатерина Алексеевна Федюкова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-04-20
14:20 -
14:40
Ключевые слова, аннотация
В докладе рассматривается разметка неоднословных единиц для
добавления их в электронный тезаурус YARN (Yet Another RussNet). Приводятся примеры проблем и
способы их решения.
Тезисы
В своей работе я исследую проблему разметки
сочетаний в электронном тезаурусе YARN.
Тезаурус — это словарь, в котором материал упорядочен по смыслу, а не по алфавиту. Соответственно, он дает нам возможность обнаружить множество смысловых отношений между словами. Например, в обычном словаре «весна» окажется довольно далеко от «лета», а в тезаурусе они будут находиться рядом.
YARN (Yet Another RussNet) — один из активно разрабатываемых сейчас электронных тезаурусов на русском языке. В него на данный момент инкорпорированы неоднословия, но их довольно мало — около 22-х тысяч, и в целом такие выражения описаны в лексикографии достаточно неоднозначно, что является актуальной проблемой для многих сфер прикладной лингвистики.
Для выявления проблем, связанных с разметкой неоднословных единиц при добавлении их в тезаурус, а также для поиска решений этих проблем, я обработала более пятисот сочетаний. Для каждого из них предпринималась попытка создания синсетов с неоднословиями. Все возникшие проблемы были проанализированы и классифицированы. Их классификация будет представлена в докладе.
Приведу пример проблемы, возникающей в ходе работы.
Иногда выражение можно заменить опорным словом. Рассмотрим, например, сочетание войсковой атаман. Интерфейс тезауруса предлагает нам указать синонимы к выражению, и одним из них будет слово атаман, так как оно не вступает в родовидовые отношения с выражением. В этом случае неоднословие может оказаться случайным сочетанием, а они запрещены для добавления. Проверить это предлагается при помощи Национального корпуса русского языка — войсковой атаман в разных падежных формах имеет 132 вхождения в НКРЯ, так что это сочетание можно считать употребительным, и поэтому оно включается в тезаурус.
Решение обозначенных проблем необходимо в области лексикографической разметки неоднословных выражений, что актуально как непосредственно для разработки тезауруса, так и для программ по автоматической обработке текста.
Тезаурус — это словарь, в котором материал упорядочен по смыслу, а не по алфавиту. Соответственно, он дает нам возможность обнаружить множество смысловых отношений между словами. Например, в обычном словаре «весна» окажется довольно далеко от «лета», а в тезаурусе они будут находиться рядом.
YARN (Yet Another RussNet) — один из активно разрабатываемых сейчас электронных тезаурусов на русском языке. В него на данный момент инкорпорированы неоднословия, но их довольно мало — около 22-х тысяч, и в целом такие выражения описаны в лексикографии достаточно неоднозначно, что является актуальной проблемой для многих сфер прикладной лингвистики.
Для выявления проблем, связанных с разметкой неоднословных единиц при добавлении их в тезаурус, а также для поиска решений этих проблем, я обработала более пятисот сочетаний. Для каждого из них предпринималась попытка создания синсетов с неоднословиями. Все возникшие проблемы были проанализированы и классифицированы. Их классификация будет представлена в докладе.
Приведу пример проблемы, возникающей в ходе работы.
Иногда выражение можно заменить опорным словом. Рассмотрим, например, сочетание войсковой атаман. Интерфейс тезауруса предлагает нам указать синонимы к выражению, и одним из них будет слово атаман, так как оно не вступает в родовидовые отношения с выражением. В этом случае неоднословие может оказаться случайным сочетанием, а они запрещены для добавления. Проверить это предлагается при помощи Национального корпуса русского языка — войсковой атаман в разных падежных формах имеет 132 вхождения в НКРЯ, так что это сочетание можно считать употребительным, и поэтому оно включается в тезаурус.
Решение обозначенных проблем необходимо в области лексикографической разметки неоднословных выражений, что актуально как непосредственно для разработки тезауруса, так и для программ по автоматической обработке текста.