Национальный корпус калмыцкого языка: морфемная разметка
Виктория Васильевна Куканова
Докладчик
заведующий отделом
Калмыцкий институт гуманитарных исследований РАН
Калмыцкий институт гуманитарных исследований РАН
129
2015-03-12
17:00 -
17:30
Ключевые слова, аннотация
Доклад посвящен описанию условных обозначений в
морфемном корпусе калмыцкого языка, которые необходимо выработать для
дальнейшей работы по созданию подкорпуса. Актуальность разработки морфемного
подкорпуса заключается в том, что, с одной стороны, отсутствуют работы,
посвященные вероятностно-структурной модели калмыцкого языка на морфемном
уровне, с другой стороны, важность проведения подобного исследования
обусловлена языковой ситуацией, сложившейся в Калмыкии.
Тезисы
В отечественной лингвистике стали интенсивно
создаваться и развиваться корпусы языков малочисленных народов Российской
Федерации, чему способствовали несомненные успехи в разработке Национального
корпуса русского языка, опыт создания которого стал непосредственно
перениматься лингвистами, занимающимися исследованием других языков. К началу
2015 г. в Калмыцком институте гуманитарных исследований РАН закончен первый
этап в разработке корпуса калмыцкого языка: собрана репрезентативная база
данных текстов на калмыцком языке, создано программное обеспечение, запущен
электронный ресурс в Интернет в испытательном режиме (kalmcorpora.ru). На
данном этапе перед нами стоят следующие задачи: системное пополнение,
разработка новых типов разметок и новых типов подкорпусов, разрешение лексической
и грамматической неоднозначности.
В 2015 г. в рамках выполнения темы научно-исследовательской работы мы приступили к разработке морфемного подкорпуса, который по сути является новым типом аннотирования языковых единиц, в нашем случае лексических. Под морфемным подкорпусом можно понимать, во-первых, часть корпуса того или иного языка, сопровождаемая морфемным аннотированием, во-вторых, собственно система морфемного аннотирования. В нашем случае мы планируем создать и корпус, и систему. В центре нашего внимания находится разработка условных обозначений для морфемного аннотирования. Оговорим, что нас интересуют лишь морфемы, а не словообразовательные процессы и типы словообразования. В этих целях нами разрабатывается база данных морфем: корневым и аффиксальным, – каждые из которых получают свою собственную характеристику, в частности значение аффиксов. Для удобства работы была дополнена уже имеющаяся система помет грамматических и семантических характеристик лексических единиц данными по морфемной разметке. Для этих целей была разработана система помет, релевантная для агглютинативного языка, коим является калмыцкий язык.
Корневые морфемы: 1) корень – R; Аффиксальные морфемы: 2) словообразовательные аффиксы – DAff: указание на ту часть речи, которая с помощью данного аффикса образуется: N – имя существительное; Adj – имя прилагательное; V – глагол; Num – числительное; Adv – наречие; 3) словоизменительные аффиксы – InflAff; 4) интерфиксы – Intf. Вспомогательные символы, необходимые для морфемного аннотирования: + – знак, обозначающий присоединение элемента; {} и () – знаки фигурных и круглых скобок, обозначает конкретизацию информации. Например, V + DAff + InflAff можно конкретизировать следующим образом: V + DAff + InflAff {нә(Pres) + в(1_S)}. Круглые скобки содержат расшифровку: словообразовательного и грамматического характера.
Из такой условной записи можно извлечь морфемную структуру слов, причем не только словообразовательные и словоизменительные модели, но и порядок морфем, или линейную последовательность морфов, характерную для калмыцкого языка. Как видно из приведенного выше примера, перед нами слово двухморфной последовательности, а цепочка словоизменительных аффиксов состоит из двух элементов, которые могут сочетаться только в этой последовательности.
В качестве исходных материалов нам служат, с одной стороны, словник Калмыцко-русского словаря [1977] и, с другой, морфемный словарь [Сусеева] и Грамматика калмыцкого языка [1983]. Планируется создать базу данных словообразовательных морфем калмыцкого языка и затем уже разрабатывать парсер, который сможет провести морфемный анализ. В результате можно получить список возможных моделей слова в калмыцком языке, можно будет вычленить те морфемы, которые наиболее частотны в калмыцком языке, а также вычленить те морфемы, которые не повторяются в сочетаниях с другими морфемами или в свободном виде.
Литература:
Калмыцко-русский словарь / под ред. Б. Д. Муниева. М.: Изд-во «Русский язык», 1977. 768 с.
Грамматика калмыцкого языка: фонетика и морфология. Элиста: Калм. кн. изд-во, 1983. 336 с.
Сусеева Д.А. Школьный словарь морфем калмыцкого языка. Элиста: Калм. кн. изд-во, 1995.
В 2015 г. в рамках выполнения темы научно-исследовательской работы мы приступили к разработке морфемного подкорпуса, который по сути является новым типом аннотирования языковых единиц, в нашем случае лексических. Под морфемным подкорпусом можно понимать, во-первых, часть корпуса того или иного языка, сопровождаемая морфемным аннотированием, во-вторых, собственно система морфемного аннотирования. В нашем случае мы планируем создать и корпус, и систему. В центре нашего внимания находится разработка условных обозначений для морфемного аннотирования. Оговорим, что нас интересуют лишь морфемы, а не словообразовательные процессы и типы словообразования. В этих целях нами разрабатывается база данных морфем: корневым и аффиксальным, – каждые из которых получают свою собственную характеристику, в частности значение аффиксов. Для удобства работы была дополнена уже имеющаяся система помет грамматических и семантических характеристик лексических единиц данными по морфемной разметке. Для этих целей была разработана система помет, релевантная для агглютинативного языка, коим является калмыцкий язык.
Корневые морфемы: 1) корень – R; Аффиксальные морфемы: 2) словообразовательные аффиксы – DAff: указание на ту часть речи, которая с помощью данного аффикса образуется: N – имя существительное; Adj – имя прилагательное; V – глагол; Num – числительное; Adv – наречие; 3) словоизменительные аффиксы – InflAff; 4) интерфиксы – Intf. Вспомогательные символы, необходимые для морфемного аннотирования: + – знак, обозначающий присоединение элемента; {} и () – знаки фигурных и круглых скобок, обозначает конкретизацию информации. Например, V + DAff + InflAff можно конкретизировать следующим образом: V + DAff + InflAff {нә(Pres) + в(1_S)}. Круглые скобки содержат расшифровку: словообразовательного и грамматического характера.
Из такой условной записи можно извлечь морфемную структуру слов, причем не только словообразовательные и словоизменительные модели, но и порядок морфем, или линейную последовательность морфов, характерную для калмыцкого языка. Как видно из приведенного выше примера, перед нами слово двухморфной последовательности, а цепочка словоизменительных аффиксов состоит из двух элементов, которые могут сочетаться только в этой последовательности.
В качестве исходных материалов нам служат, с одной стороны, словник Калмыцко-русского словаря [1977] и, с другой, морфемный словарь [Сусеева] и Грамматика калмыцкого языка [1983]. Планируется создать базу данных словообразовательных морфем калмыцкого языка и затем уже разрабатывать парсер, который сможет провести морфемный анализ. В результате можно получить список возможных моделей слова в калмыцком языке, можно будет вычленить те морфемы, которые наиболее частотны в калмыцком языке, а также вычленить те морфемы, которые не повторяются в сочетаниях с другими морфемами или в свободном виде.
Литература:
Калмыцко-русский словарь / под ред. Б. Д. Муниева. М.: Изд-во «Русский язык», 1977. 768 с.
Грамматика калмыцкого языка: фонетика и морфология. Элиста: Калм. кн. изд-во, 1983. 336 с.
Сусеева Д.А. Школьный словарь морфем калмыцкого языка. Элиста: Калм. кн. изд-во, 1995.