Корпусная лингвистика в прибалтийско-финском исследовательском пространстве (на материале Корпуса вепсского языка)
Нина Григорьевна Зайцева
Докладчик
заведующий отделом
Институт языка, литературы и истории КарНЦ РАН
Институт языка, литературы и истории КарНЦ РАН
198
2015-03-11
14:40 -
15:00
Ключевые слова, аннотация
Доклад посвящен проблемам создания корпусов языков малочисленных народов.
Тезисы
В настоящее время активно развивается направление
лингвистической науки, которое основано на использовании языковых электронных
корпусов и корпусных технологий и носит название «корпусной лингвистики». Существуют
огромные электронные ресурсы, которые воплощены в Национальный корпус русского
языка, Британский национальный корпус, Чешский национальный корпус и т.д.
В 2012-2014 г.г. Президиум РАН
активно поддерживал проекты, которые были нацелены на создание и развитие корпусных ресурсов как по современному русскому языку и его истории, так
и по языкам народов России. Последнее
направление объединяло проекты, связанные с созданием корпусов на языках
народов России.
Данное направление науки известно
и в прибалтийско-финском исследовательском пространстве. Известен Венгерский
национальный корпус, Языковой банк Финляндии, Справочный корпус эстонского
языка и Фонетический корпус спонтанной эстонской речи и т.д.
В настоящее
время создается Корпус вепсского языка, который уже включает в себя электронный
словарь и 5 текстовых корпусов: диалектные
тексты; фольклорные тексты с двумя подкорпусами (причитания и сказки); два
младописьменных корпуса (переводы Нового Завета; тексты на младописьменном
вепсском языке). Корпусы оборудованы собственными системами поиска по различного
рода характеристикам: по отдельным словам, диалектам, жанрам фольклора и жанрам
младописьменных текстов и.т.д
В настоящее
время Корпус вепсского
языка и его электронный словарь включают в себя более одной тысячи текстов,
более 800 библиографических источников, более 10 тысяч лемм и словоформ. Научная значимость проекта «Корпус вепсского языка»
состоит в разработке модели документации малых языков, которые уже в ближайшие
десятилетия могут исчезнуть с лингвистической карты России. Корпус вепсского
языка может стать своеобразным музеем вепсского языка с широким и доступным
кругом экспонатов, на который можно было бы ориентироваться при описании других
языков малочисленных народов.
Подобные языковые ресурсы повышают жизнеспособность и
способствуют модернизации, а также фиксируют уходящие или находящиеся под
угрозой исчезновения языки малочисленных народов. Создаваемые электронные ресурсы
не только закладывают фундамент для лингвистических исследований будущего, но и
содействуют – по мере возможности – сохранению уходящего культурного
многообразия, на которое во многом способна именно корпусная лингвистика.