Метод морфологического анализа незнакомых слов текста на основе словообразовательных моделей
Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2015-03-13
15:00 -
15:20
Ключевые слова, аннотация
В докладе представлены результаты исследования префиксальных словообразовательных моделей в качестве одного из подходов К морфологическому анализу
несловарных слов. В ходе проекта словари приставок были расширены так
называемыми префиксоидами. Была определена их морфемная продуктивность, а
именно сколько разных регулярных слов встречается с тем или иным
префиксоидом и как часто эти слова употребляются в корпусе текстов. Данные
были получены на основе корпусов русского языка объемом 230 млн слов и
1,2 млрд слов.
Тезисы
Автоматический
морфологический анализ в системах АОТ –
комплекс процедур, состоящий в том, чтобы для каждого текстового элемента,
выделенного в результате графематического анализа как словоформа языка, определить набор
граммем и лемму. Основные методы морфологического анализа можно поделить на словарные
(со словарем основ или со словарем словоформ) и бессловарные.
В основе словарных методов лежит
нахождение в словаре единицы, соответствующей анализируемой словоформе. Далее
из данного словаря и из словаря флексий выбирается нужная грамматическая
информация.
Однако можно сказать, что и
словарном методе всегда присутствует бессловарный. Он применяется для слов, «незнакомых»
словарю. Это могут быть новые слова языка, редкие слова, окказионализмы, искаженные
слова, аббревиатур и т.д..
Типичный
прием морфоанализа неопознанных слов ‑ метод предсказания ‑ создание
гипотетических догадок о морфологическом «поведении» данных словоформ по аналогии с известными. Этот метод дает больше "шума", т.е. вариантов анализа, и меньшую
точность и требует усовершенствования.
Однако существующие программы,
как правило, не учитывают предсказание на основе словообразовательных моделей. Действительно,
русский язык очень легко позволяет порождать слова, которых нет и не должно
быть в словарях.
В данной работе мы исследуем префиксальные словообразовательные модели. Для их эффективной реализации необходимо расширить имеющиеся словари приставок так называемыми префиксоидами и компонентами сложных слов. Во-вторых, необходимо знать морфемную продуктивность, а именно сколько разных регулярных слов встречается с той или иной морфемой и как часто эти слова встречаются в языке, т.е. в корпусе текстов. Для русского языка такой информации не существует. На первом этапе был составлен список префиксоидов дополняющий список из 87 префиксов, учтенных в Русской грамматике и в грамматике И.Г. Милославского. Словарь этих новых квазиморфем насчитывает 126 единиц. Естественно, он не полон. Очевидно, что продуктивность и частотность той или иной квазиморфемы будет сильно колебаться в зависимости от предметной области. Например, в языке химии имеются такие префиксоиды, как гексо-, карбо-, сульфито- и др., которые очень продуктивны в химических текстах и совсем не используются в других. Поэтому в число вышеназванных 126 квазиморфем входят только те, которые встречаются в словах из орфографического словаря русского языка, напр.: авто-, теле-, фото-, кило-, меж-, пан-, мега-, нано-, вибро-, крио- и др. По двум корпусам русского языка (НКРЯ объемом 230 млн слов и Araneum Majus объемом 1,2 млрд. слов) была посчитана их относительная частота. При этом было необходимо отсечь те слова, где исследуемая квазиморфема таковой не является (например, авто- в слове «автор» или моно- в слове «монокль»). Для этого был составлен частотный словарь корпуса Araneum Majus и по нему выявлены наиболее частотные слова, где наш префиксоид является частью основы. Эти слова в запросе к корпусу включались со знаком операции отрицания. И наоборот те слова, где исследуемый элемент можно рассматривать как префикс, давали нам показатель продуктивности соответствующей морфемы. При этом интересно отметить, что ранги частотности обработанных префиксоидов в двух корпусах разнятся, например, техно- имеет ранг 7 в Araneus Majus и ранг 14 в НКРЯ, видео-, соответственно, 26 и 50, гео- 24 и 13. Эти цифры находят свое объяснение, если учесть, что НКРЯ - это сбалансированный корпус с большим подкорпусом художественной литературы, в то время как Araneum - это корпус, составленный на базе Интернета. В дальнейшем, по завершении исследования, полученные таким образом словари префиксоидов с их частотной характеристикой и характеристикой продуктивности (включая списки правых компонентов) будут подключены к системе автоматического морфоанализа.
В данной работе мы исследуем префиксальные словообразовательные модели. Для их эффективной реализации необходимо расширить имеющиеся словари приставок так называемыми префиксоидами и компонентами сложных слов. Во-вторых, необходимо знать морфемную продуктивность, а именно сколько разных регулярных слов встречается с той или иной морфемой и как часто эти слова встречаются в языке, т.е. в корпусе текстов. Для русского языка такой информации не существует. На первом этапе был составлен список префиксоидов дополняющий список из 87 префиксов, учтенных в Русской грамматике и в грамматике И.Г. Милославского. Словарь этих новых квазиморфем насчитывает 126 единиц. Естественно, он не полон. Очевидно, что продуктивность и частотность той или иной квазиморфемы будет сильно колебаться в зависимости от предметной области. Например, в языке химии имеются такие префиксоиды, как гексо-, карбо-, сульфито- и др., которые очень продуктивны в химических текстах и совсем не используются в других. Поэтому в число вышеназванных 126 квазиморфем входят только те, которые встречаются в словах из орфографического словаря русского языка, напр.: авто-, теле-, фото-, кило-, меж-, пан-, мега-, нано-, вибро-, крио- и др. По двум корпусам русского языка (НКРЯ объемом 230 млн слов и Araneum Majus объемом 1,2 млрд. слов) была посчитана их относительная частота. При этом было необходимо отсечь те слова, где исследуемая квазиморфема таковой не является (например, авто- в слове «автор» или моно- в слове «монокль»). Для этого был составлен частотный словарь корпуса Araneum Majus и по нему выявлены наиболее частотные слова, где наш префиксоид является частью основы. Эти слова в запросе к корпусу включались со знаком операции отрицания. И наоборот те слова, где исследуемый элемент можно рассматривать как префикс, давали нам показатель продуктивности соответствующей морфемы. При этом интересно отметить, что ранги частотности обработанных префиксоидов в двух корпусах разнятся, например, техно- имеет ранг 7 в Araneus Majus и ранг 14 в НКРЯ, видео-, соответственно, 26 и 50, гео- 24 и 13. Эти цифры находят свое объяснение, если учесть, что НКРЯ - это сбалансированный корпус с большим подкорпусом художественной литературы, в то время как Araneum - это корпус, составленный на базе Интернета. В дальнейшем, по завершении исследования, полученные таким образом словари префиксоидов с их частотной характеристикой и характеристикой продуктивности (включая списки правых компонентов) будут подключены к системе автоматического морфоанализа.