44th International Philological Research Conference

Национальный корпус калмыцкого языка: морфемная разметка

Виктория Васильевна Куканова
Докладчик
заведующий отделом
Калмыцкий институт гуманитарных исследований РАН

129
2015-03-12
17:00 - 17:30

Ключевые слова, аннотация

Доклад посвящен описанию условных обозначений в морфемном корпусе калмыцкого языка, которые необходимо выработать для дальнейшей работы по созданию подкорпуса. Актуальность разработки морфемного подкорпуса заключается в том, что, с одной стороны, отсутствуют работы, посвященные вероятностно-структурной модели калмыцкого языка на морфемном уровне, с другой стороны, важность проведения подобного исследования обусловлена языковой ситуацией, сложившейся в Калмыкии.

Тезисы

В отечественной лингвистике стали интенсивно создаваться и развиваться корпусы языков малочисленных народов Российской Федерации, чему способствовали несомненные успехи в разработке Национального корпуса русского языка, опыт создания которого стал непосредственно перениматься лингвистами, занимающимися исследованием других языков. К началу 2015 г. в Калмыцком институте гуманитарных исследований РАН закончен первый этап в разработке корпуса калмыцкого языка: собрана репрезентативная база данных текстов на калмыцком языке, создано программное обеспечение, запущен электронный ресурс в Интернет в испытательном режиме (kalmcorpora.ru). На данном этапе перед нами стоят следующие задачи: системное пополнение, разработка новых типов разметок и новых типов подкорпусов, разрешение лексической и грамматической неоднозначности.
В 2015 г. в рамках выполнения темы научно-исследовательской работы мы приступили к разработке морфемного подкорпуса, который по сути является новым типом аннотирования языковых единиц, в нашем случае лексических. Под морфемным подкорпусом можно понимать, во-первых, часть корпуса того или иного языка, сопровождаемая морфемным аннотированием, во-вторых, собственно система морфемного аннотирования. В нашем случае мы планируем создать и корпус, и систему. В центре нашего внимания находится разработка условных обозначений для морфемного аннотирования. Оговорим, что нас интересуют лишь морфемы, а не словообразовательные процессы и типы словообразования. В этих целях нами разрабатывается база данных морфем: корневым и аффиксальным, – каждые из которых получают свою собственную характеристику, в частности значение аффиксов. Для удобства работы была дополнена уже имеющаяся система помет грамматических и семантических характеристик лексических единиц данными по морфемной разметке. Для этих целей была разработана система помет, релевантная для агглютинативного языка, коим является калмыцкий язык.
Корневые морфемы: 1) корень – R; Аффиксальные морфемы: 2) словообразовательные аффиксы – DAff: указание на ту часть речи, которая с помощью данного аффикса образуется: N – имя существительное; Adj – имя прилагательное; V – глагол; Num – числительное; Adv – наречие; 3) словоизменительные аффиксы – InflAff; 4) интерфиксы – Intf. Вспомогательные символы, необходимые для морфемного аннотирования: + – знак, обозначающий присоединение элемента; {} и () – знаки фигурных и круглых скобок, обозначает конкретизацию информации. Например, V + DAff + InflAff можно конкретизировать следующим образом: V + DAff + InflAff {нә(Pres) + в(1_S)}. Круглые скобки содержат расшифровку: словообразовательного и грамматического характера.
Из такой условной записи можно извлечь морфемную структуру слов, причем не только словообразовательные и словоизменительные модели, но и порядок морфем, или линейную последовательность морфов, характерную для калмыцкого языка. Как видно из приведенного выше примера, перед нами слово двухморфной последовательности, а цепочка словоизменительных аффиксов состоит из двух элементов, которые могут сочетаться только в этой последовательности.
 В качестве исходных материалов нам служат, с одной стороны, словник Калмыцко-русского словаря [1977] и, с другой, морфемный словарь [Сусеева] и Грамматика калмыцкого языка [1983]. Планируется создать базу данных словообразовательных морфем калмыцкого языка и затем уже разрабатывать парсер, который сможет провести морфемный анализ. В результате можно получить список возможных моделей слова в калмыцком языке, можно будет вычленить те морфемы, которые наиболее частотны в калмыцком языке, а также вычленить те морфемы, которые не повторяются в сочетаниях с другими морфемами или в свободном виде.

Литература:
Калмыцко-русский словарь / под ред. Б. Д. Муниева. М.: Изд-во «Русский язык», 1977. 768 с.
Грамматика калмыцкого языка: фонетика и морфология. Элиста: Калм. кн. изд-во, 1983. 336 с.
Сусеева Д.А. Школьный словарь морфем калмыцкого языка
. Элиста: Калм. кн. изд-во, 1995.