45th International Philological Research Conference

Существительные или наречия

Евгений Александрович Каневский
Докладчик
ведущий научный сотрудник
ИПРЭ РАН

193
2016-03-18
15:35 - 15:55

Ключевые слова, аннотация

Доклад посвящен вопросам снятия морфологической амбигуации при синтаксическом анализе текста на русском языке. Предполагается, что уже построены именные и предложные группы. Проблема омонимии возникает при попытке присоединить существительное в родительном падеже, которое может быть и наречием. Таких слов немного, но очень велика встречаемость слов дома и раз. Предлагаются способы снятия такой неоднозначности.

Тезисы

Вопросам компьютерной морфологии посвящено множество работ, однако эта проблема до сих пор не решена окончательно. При автоматическом разборе предложений прежде всего возникает проблема снятия морфологической неоднозначности. Как показывает наш опыт эксплуатации семантико-синтаксического парсера SemSin [1], в текстах на русском языке часто встречаются особые слова, у которых для снятия омонимии достаточно использовать окружающий контекст. Вслед за Т.Ю. Кобзаревой [2] для этой цели мы используем предсинтаксический модуль. Однако в ряде случаев это оказывается недостаточно — желательно иметь именные и предложные группы (ИГ и ПГ). Ряд таких слов — сущ. в род. пад. или наречие — была выявлена при попытке подключения неоднозначного родительного падежа (сочетание слов день дома). Путем анализа используемого нами словаря  и семантического классификатора был определен возможный состав этой группы. Словоформа дома является одной из наиболее сложных для снятия омонимии. Если слева находится сущ., которое требует род. пад. и относится к классам «Сооружения» (окно, крыша), «Действия» (возведение, отделка), «Вид» (вид, облик), «Сторона» (бок, перед), «Глава» (глава, директор) или «Личность» (герольд, хозяин), то словоформа дома является сущ. Если же левое сущ. относится к классам «Родня» (дед, отец) или «Время» (год, день), то словоформа дома является наречием. Словоформа зараз может иметь 2 значения: прил./прич. зараз (лемма ЗАРАЗА) и наречие ЗАРАЗ, однако частота встречаемости сущ. не превышает 1% — им можно пренебречь. Словоформа инкогнито может иметь 2 значения: прил./прич. инкогнито или соблюдать/сохранять/оставаться/открывать инкогнито (лемма ИНКОГНИТО) и наречие ИНКОГНИТО. Словоформа раз является одной из наиболее сложных для снятия омонимии. При анализе используется целый набор правил, причем, прежде всего, надо учесть стандартные словосочетания в роли наречий (всякий раз, в десятки раз и т. д.). Если после словоформы раз находится предлог в или во, вслед за которым расположено сущ. (центр предложной группы), относящееся к классу «Время» (год,  неделя), то словоформа раз является сущ. (лемма РАЗ). Словоформа хором может иметь 3 значения: из хором (лемма ХОРОМЫ), с/между/доволен хором (лемма ХОР) и наречие ХОРОМ. Предлагаемые способы снятия омонимии обеспечивают точность определения лексемы в среднем до 95%.

Список литературы:
[1] Боярский К. К. Каневский Е. А. Семантико-синтаксический парсер SEMSIN // Научно-технический вестник информационных технологий, механики и оптики. 2015. № 5 (15). С. 869–876.
[2] Кобзарева Т. Ю., Афанасьев Р. Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в РЯ на основе словаря диагностических ситуаций // Труды Международной конференции Диалог’2002. Протвино, 2002. Т. 2. С. 258–268.