Морфоанализ сложносоставных существительных в русском языке: проблема определения рода
Татьяна Георгиевна Скребцова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-13
16:50 -
17:10
Ключевые слова, аннотация
Доклад посвящен проблеме автоматического определения рода сложносоставных существительных с дефисным написанием в русском языке. Эта задача вызывает трудности в том случае, когда компоненты такого слова имеют разный грамматический род. Предлагаемые в литературе подходы либо неверны, либо непригодны в контексте автоматической обработки языка. На основе анализа подобных существительных автор показывает нетривиальность задачи и отсутствие единого подхода к ее решению. В качестве вынужденного решения предлагается приписывать им альтернативный род, что влечет увеличение неоднозначности.
Тезисы
В системах автоматической обработки языка морфологический
анализ, как правило, является наиболее разработанным компонентом. Несмотря на
то что существуют разные подходы к построению парсера,
самым распространенным в наши дни является метод, опирающийся на словарь
словоформ. Вместе с тем, он имеет хорошо
известный недостаток, а именно неспособность справляться со словами, которых
нет в словаре, – так называемыми «несловарными словоформами». К этому разряду относятся имена собственные, аббревиатуры,
а также многие производные слова, в том числе сложносоставные.
Сложносоставные слова образуют открытую группу, легко пополняемую новыми членами. Исчислить ее состав невозможно, следовательно, требуется разработать стратегию действий морфологического парсера при анализе таких словоформ. Этому вопросу и посвящена настоящая статья. Основное внимание уделяется проблеме автоматического определения рода сложносоставных существительных с дефисным написанием типа женщина-космонавт, чудо-йогурт, диван-кровать и т.д. Очевидно, что трудности возникают тогда, когда компоненты сложносоставного существительного имеют разный грамматический род. В литературе этот вопрос практически не затрагивался. Предложенные подходы либо несостоятельны, либо непригодны в контексте автоматической обработки языка. Автор вынужден констатировать, что, по-видимому, однозначное автоматическое определение рода сложносоставного существительного с дефисным написанием невозможно, если его компоненты имеют разный грамматический род. Следовательно, таким словам в ходе автоматического морфоанализа следует приписывать два альтернативных значения грамматического рода, что повышает общий индекс неоднозначности. Примечательно, что схожая задача автоматического определения числа сложносоставных существительных (когда эти значения не совпадают у компонентов слова, например часы-будильник, пресс-службы) разрешается гораздо проще.
Сложносоставные слова образуют открытую группу, легко пополняемую новыми членами. Исчислить ее состав невозможно, следовательно, требуется разработать стратегию действий морфологического парсера при анализе таких словоформ. Этому вопросу и посвящена настоящая статья. Основное внимание уделяется проблеме автоматического определения рода сложносоставных существительных с дефисным написанием типа женщина-космонавт, чудо-йогурт, диван-кровать и т.д. Очевидно, что трудности возникают тогда, когда компоненты сложносоставного существительного имеют разный грамматический род. В литературе этот вопрос практически не затрагивался. Предложенные подходы либо несостоятельны, либо непригодны в контексте автоматической обработки языка. Автор вынужден констатировать, что, по-видимому, однозначное автоматическое определение рода сложносоставного существительного с дефисным написанием невозможно, если его компоненты имеют разный грамматический род. Следовательно, таким словам в ходе автоматического морфоанализа следует приписывать два альтернативных значения грамматического рода, что повышает общий индекс неоднозначности. Примечательно, что схожая задача автоматического определения числа сложносоставных существительных (когда эти значения не совпадают у компонентов слова, например часы-будильник, пресс-службы) разрешается гораздо проще.