Метод корпусного исследования немецких диминутивов на -chen и -lein
Бенце Ньеки
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2019-04-15
14:35 -
14:50
Ключевые слова, аннотация
Электронные корпусы представляют возможность
количественного исследования словообразовательных правил. В рамках настоящей работы были рассмотрены результаты поиска диминутивов на -chen и -lein в корпусе немецкого
языка «DWDS». В целях получения точных результатов необходима
была фильтрация корпусного материала с помощью обратного словаря и частеречного
анализатора. К сохраненным предложениям была добавлена
разметка, заключающаяся в восстановлении леммы слова, мотивирующего диминутив. Получившийся материал может быть использован в
лингвистических исследованиях.
Тезисы
Современные электронные корпусы позволяют лингвистам
изучать не только словоизменение, лексику или синтаксис определенного языка, но
и словообразовательные правила. Если в данном языке главным способом
словообразования является аффиксация, то возможен поиск производных слов по
суффиксу или префиксу. Тем не менее, если исследование имеет целью анализ
большого количества данных, необходимо отфильтровать результаты ввиду омонимии.
К отфильтрованным результатам целесообразно добавить специальную
лингвистическую разметку в зависимости от изучаемых черт дериватов.
В рамках настоящего исследования были экспортированы результаты поиска существительных по окончаниям -chen и -lein из основного корпуса немецкого языка XX в. и корпуса XXI в. DWDS (Digitales Wörterboch der deutschen Sprache).
Фильтрация была основана на обратном словаре немецкого языка (Rückläufiges Wörterbuch der deutschen Gegenwartssprache) и на частеречном анализе, выполненном процессором TreeTagger. Из словаря были выбраны и добавлены в отдельный список словоформы непроизводных существительных, оканчивающиеся на -chen или -lein (например, Menschen ‘люди’), и диминутивы без независимой мотивирующей основы (Mädchen/Mädlein ‘девочка’). Если ключевое слово, первый символ которого был переведен в строчную букву, было размечено анализатором не как существительное, или оно представляло собой словоформу, включенную в список, соответствующий результат был удален. Лингвистическая разметка оставшихся результатов заключалась в восстановлении леммы мотивирующего слова. Восстановление леммы поможет в изучении лексической базы словообразовательного правила. Для этого была создана программа, анализирующая строку (ключевое слово) с конца и проверяющая наличие ее частей в списке существительных, извлеченных из открытого тезауруса немецкого языка Open German WordNet.
Суть алгоритма состоит в том, что программа может восстановить лемму мотивирующего слова даже тогда, когда оно является сложным словом, и только его последний компонент представлен в словаре. Таким образом, из результатов поиска по -chen сохранилось 5641 предложение, а из результатов поиска по -lein — 674 предложения. В первом случае токены ключевых слов представляют собой 1808 разных лексем, а во втором — 196. 34,68% лексем из первой группы (слова на -chen) встречается более чем один раз, а во второй группе (слова на -lein) эта доля составляет 32,65%. Приведенные данные свидетельствуют о продуктивности словообразовательных правил. Итак, из вышесказанного следует, что корпусы могут способствовать изучению важных (в т. ч. количественных) свойств словообразовательных правил.
В рамках настоящего исследования были экспортированы результаты поиска существительных по окончаниям -chen и -lein из основного корпуса немецкого языка XX в. и корпуса XXI в. DWDS (Digitales Wörterboch der deutschen Sprache).
Фильтрация была основана на обратном словаре немецкого языка (Rückläufiges Wörterbuch der deutschen Gegenwartssprache) и на частеречном анализе, выполненном процессором TreeTagger. Из словаря были выбраны и добавлены в отдельный список словоформы непроизводных существительных, оканчивающиеся на -chen или -lein (например, Menschen ‘люди’), и диминутивы без независимой мотивирующей основы (Mädchen/Mädlein ‘девочка’). Если ключевое слово, первый символ которого был переведен в строчную букву, было размечено анализатором не как существительное, или оно представляло собой словоформу, включенную в список, соответствующий результат был удален. Лингвистическая разметка оставшихся результатов заключалась в восстановлении леммы мотивирующего слова. Восстановление леммы поможет в изучении лексической базы словообразовательного правила. Для этого была создана программа, анализирующая строку (ключевое слово) с конца и проверяющая наличие ее частей в списке существительных, извлеченных из открытого тезауруса немецкого языка Open German WordNet.
Суть алгоритма состоит в том, что программа может восстановить лемму мотивирующего слова даже тогда, когда оно является сложным словом, и только его последний компонент представлен в словаре. Таким образом, из результатов поиска по -chen сохранилось 5641 предложение, а из результатов поиска по -lein — 674 предложения. В первом случае токены ключевых слов представляют собой 1808 разных лексем, а во втором — 196. 34,68% лексем из первой группы (слова на -chen) встречается более чем один раз, а во второй группе (слова на -lein) эта доля составляет 32,65%. Приведенные данные свидетельствуют о продуктивности словообразовательных правил. Итак, из вышесказанного следует, что корпусы могут способствовать изучению важных (в т. ч. количественных) свойств словообразовательных правил.