44th International Philological Research Conference

Метод морфологического анализа незнакомых слов текста на основе словообразовательных моделей

Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2015-03-13
15:00 - 15:20

Ключевые слова, аннотация

В докладе представлены результаты исследования префиксальных словообразовательных моделей в качестве одного из подходов К морфологическому анализу несловарных слов. В ходе проекта словари приставок были расширены так называемыми префиксоидами. Была определена их морфемная продуктивность, а именно сколько разных регулярных слов встречается с тем или иным префиксоидом и как часто эти слова употребляются в корпусе текстов. Данные были получены на основе корпусов русского языка объемом 230 млн слов и 1,2 млрд слов.

Тезисы

Автоматический морфологический анализ в системах АОТ – комплекс процедур, состоящий в том, чтобы для каждого текстового элемента, выделенного в результате графематического анализа как словоформа языка, определить набор граммем и лемму. Основные методы морфологического анализа можно поделить на словарные (со словарем основ или со словарем словоформ) и бессловарные. В основе словарных методов лежит нахождение в словаре единицы, соответствующей анализируемой словоформе. Далее из данного словаря и из словаря флексий выбирается нужная грамматическая информация. Однако можно сказать, что и словарном методе всегда присутствует бессловарный. Он применяется для слов, «незнакомых» словарю. Это могут быть новые слова языка, редкие слова, окказионализмы, искаженные слова, аббревиатур и т.д.. Типичный прием морфоанализа неопознанных слов ‑ метод предсказания ‑ создание гипотетических догадок о морфологическом «поведении» данных словоформ по аналогии с известными. Этот метод дает больше "шума", т.е. вариантов анализа, и меньшую точность и требует усовершенствования. Однако существующие программы, как правило, не учитывают предсказание на основе словообразовательных моделей. Действительно, русский язык очень легко позволяет порождать слова, которых нет и не должно быть в словарях.
В данной работе мы исследуем префиксальные словообразовательные модели. Для их эффективной реализации необходимо расширить имеющиеся словари приставок так называемыми префиксоидами и компонентами сложных слов. Во-вторых, необходимо знать морфемную продуктивность, а именно сколько разных регулярных слов встречается с той или иной морфемой и как часто эти слова встречаются в языке, т.е. в корпусе текстов. Для русского языка такой информации не существует. На первом этапе был составлен список префиксоидов дополняющий список из 87 префиксов, учтенных в Русской грамматике и в грамматике И.Г. Милославского. Словарь этих новых квазиморфем насчитывает 126 единиц. Естественно, он не полон. Очевидно, что продуктивность и частотность той или иной квазиморфемы будет сильно колебаться в зависимости от предметной области. Например, в языке химии имеются такие префиксоиды, как гексо-, карбо-, сульфито- и др., которые очень продуктивны в химических текстах и совсем не используются в других. Поэтому в число вышеназванных 126 квазиморфем входят только те, которые встречаются в словах из орфографического словаря русского языка, напр.: авто-, теле-, фото-, кило-, меж-, пан-, мега-, нано-, вибро-, крио- и др. По двум корпусам русского языка (НКРЯ объемом 230 млн слов и Araneum Majus объемом 1,2 млрд. слов) была посчитана их относительная частота. При этом было необходимо отсечь те слова, где исследуемая квазиморфема таковой не является (например, авто- в слове «автор» или моно- в слове «монокль»). Для этого был составлен частотный словарь корпуса Araneum Majus и по нему выявлены наиболее частотные слова, где наш префиксоид является частью основы. Эти слова в запросе к корпусу включались со знаком операции отрицания. И наоборот те слова, где исследуемый элемент можно рассматривать как префикс, давали нам показатель продуктивности соответствующей морфемы. При этом интересно отметить, что ранги частотности обработанных префиксоидов в двух корпусах разнятся, например, техно- имеет ранг 7 в Araneus Majus и ранг 14 в НКРЯ, видео-, соответственно, 26 и 50, гео- 24 и 13. Эти цифры находят свое объяснение, если учесть, что НКРЯ - это сбалансированный корпус с большим подкорпусом художественной литературы, в то время как Araneum - это корпус, составленный на базе Интернета. В дальнейшем, по завершении исследования, полученные таким образом словари префиксоидов с их частотной характеристикой и характеристикой продуктивности (включая списки правых компонентов) будут подключены к системе автоматического морфоанализа.