Речевой корпус прибалтийско-финских языков Карелии: архитектура и возможности
Александра Павловна Родионова
Докладчик
научный сотрудник
Институт языка, литературы и истории КарНЦ РАН
Институт языка, литературы и истории КарНЦ РАН
193
2023-03-15
17:15 -
17:35
Ключевые слова, аннотация
Речевой корпус; вепсский язык; карельский язык; корпусная лингвистика; аудио-образцы
Доклад посвящен описанию Речевого корпуса прибалтийско-финской речи, созданного на платформе «Открытого корпуса вепсского и карельского языков» (ВепКар), его архитектуре и возможностям. Актуальность исследования обусловлена необходимостью дальнейшего развития корпуса ВепКар, широко востребованного как в научных исследованиях, так и в процессе развития литературных форм карельского и вепсского языков.
Доклад посвящен описанию Речевого корпуса прибалтийско-финской речи, созданного на платформе «Открытого корпуса вепсского и карельского языков» (ВепКар), его архитектуре и возможностям. Актуальность исследования обусловлена необходимостью дальнейшего развития корпуса ВепКар, широко востребованного как в научных исследованиях, так и в процессе развития литературных форм карельского и вепсского языков.
Тезисы
Доклад
посвящен описанию Речевого корпуса прибалтийско-финской речи, созданного на
платформе «Открытого корпуса вепсского и карельского языков» (ВепКар), его
архитектуре и возможностям.
В
мире существует большое количество лингвистических корпусов: Национальный
корпус русского языка [НКРЯ], Языковой банк Финляндии [ЯБФ], Сводный корпус
эстонского языка [СКЭЯ], Венгерский национальный корпус [ВНК]. Среди корпусов
финно-угорских республик России можно выделить Национальный корпус удмуртского
языка [НКУЯ], Корпус лугового марийского языка [КЛМЯ], Корпус коми-зырянского
[ККЗЯ] и Коми-пермяцкого языков [ККПЯ] и т.д. С 2016 г. языковеды ИЯЛИ КарНЦ
РАН совместно с исследователями ИПМИ занялись разработкой нового направления, а
именно созданием интернет-ресурса «Открытый корпус вепсского и карельского языков»
[ВепКар]. Корпус
ВепКар является многофункциональным, т.к. содержит большое количество
инструментов, позволяющих языковедам успешно использовать этот ресурс в своих
исследованиях. В
настоящее время размещено более 4,4 тыс. текстов на 46 диалектах карельского и
вепсского языков, словари и компьютерные программы для обработки, поиска и
представления данных. Основу корпуса составляют письменные тексты различных
жанров и типов, созданных начиная с XIX столетия. В корпусе в настоящее время также организована
удобная система поиска, которая помогает отфильтровать тексты не только по
языковой или стилистической, но и по диалектной принадлежности, или, например,
по информанту, собирателю или автору, году записи или году публикации. Поиск
лемм возможен по диалектам, частям речи, грамматическим признакам и даже по
лексико-семантическим категориям. Таким образом, ВепКар стал основной базой для исследования
прибалтийско-финских языков Северо-Запада России.
Однако одних лишь текстовых данных недостаточно для проведения качественных
фонетических исследований с применением современных программ обработки и
анализа речи. В связи с этим в 2022 г. исследователи ИЯЛИ и ИПМИ приступили к
работе над созданием Речевого корпуса прибалтийско-финских языков Карелии.
Разработанный
Речевой корпус представляет собой собрание звучащих текстов на разных диалектах
карельского и вепсского языков, снабженных транскрипцией, разметкой и переводом
на русский язык, а также необходимые для работы
поисковые фильтры (поиск по языку/диалекту, месту и году записи, информанту и
собирателю, источнику). Актуальность исследования обусловлена
необходимостью дальнейшего развития корпуса ВепКар, широко востребованного как
в научных исследованиях, так и в процессе развития литературных форм
карельского и вепсского языков. Применение современных технологий и методик к
накопленному на протяжении многих десятилетий полевому материалу в совокупности
с новейшими данными позволит восполнить целый ряд лакун, выявленных лингвистами
в данной системе ранее. Для наполнения корпуса
аудиозаписями карельской и вепсской речи исследователи используют три основных источника: аудиоколлекции
Фонограммархива ИЯЛИ КарНЦ РАН, аудиозаписи передач на ливвиковском наречии карельского
языка, а также полевые материалы авторов, записанные в ходе экспедиций.
Научная новизна обоснована недостатком речевых корпусов прибалтийско-финских
языков. Цифровизация архивных и полевых аудио-образцов карельской и вепсской
речи в формате Речевого корпуса в дальнейшем сможет упростить обработку и
хранение материалов, позволит ввести в научный оборот и представить в открытый
доступ уникальные аудиоматериалы, отражающие состояние карельских и вепсских
диалектов начиная с середины прошлого столетия.
В настоящий момент Речевой корпус
содержит пятьдесят аудиофрагментов, длительностью от одной до трех минут, представляющих собой разнообразие
карельской и вепсской устной диалектной речи. Особую ценность представляет
фрагмент записи валдайской речи, единственный обнаруженный к настоящему времени.
Для
облегчения работы пользователей с Речевым корпусом и для обеспечения
возможности наглядного представления звукового материала была разработана
мультимедийная аудио-карта говоров
прибалтийско-финской речи Карелии и сопредельных областей.
Ситуация, в которой пребывают
прибалтийско-финские языки Карелии, можно назвать тревожной. Численность
носителей карельского языка, являющегося языком титульной нации республики, и
вепсского — языка коренного малочисленного народа Российской Федерации –
стремительно сокращается из года в год. Так, например, численность карельского
населения в России, по итогам переписи 2020 г. сократилась до 32422 человек (в
2002 году – 60815 человек), вепсского населения до 4534 человек в 2020 году (в
2002 году – 5936 человек). Кроме этого, для вышеназванных языков характерно сужение языкового пространства, поскольку
говоры постепенно уходят вместе с деревнями, а молодому поколению преподаются
нормированные варианты языков. При этом именно говоры способствуют сохранению
национально-культурной идентичности народа.
*Исследование
выполнено при финансовой поддержке Российского научного фонда совместно с органами власти
Республики Карелия с финансированием из Фонда венчурных инвестиций Республики
Карелия (ФВИ РК) проект № 22-28-20215 «Создание
речевого корпуса прибалтийско-финских языков Карелии»