LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Речевой корпус прибалтийско-финских языков Карелии: архитектура и возможности

Александра Павловна Родионова
Докладчик
научный сотрудник
Институт языка, литературы и истории КарНЦ РАН

193
2023-03-15
17:15 - 17:35

Ключевые слова, аннотация

Речевой корпус; вепсский язык; карельский язык; корпусная лингвистика; аудио-образцы

Доклад посвящен описанию Речевого корпуса прибалтийско-финской речи, созданного на платформе «Открытого корпуса вепсского и карельского языков» (ВепКар), его архитектуре и возможностям. Актуальность исследования обусловлена необходимостью дальнейшего развития корпуса ВепКар, широко востребованного как в научных исследованиях, так и в процессе развития литературных форм карельского и вепсского языков.

Тезисы

Доклад посвящен описанию Речевого корпуса прибалтийско-финской речи, созданного на платформе «Открытого корпуса вепсского и карельского языков» (ВепКар), его архитектуре и возможностям. В мире существует большое количество лингвистических корпусов: Национальный корпус русского языка [НКРЯ], Языковой банк Финляндии [ЯБФ], Сводный корпус эстонского языка [СКЭЯ], Венгерский национальный корпус [ВНК]. Среди корпусов финно-угорских республик России можно выделить Национальный корпус удмуртского языка [НКУЯ], Корпус лугового марийского языка [КЛМЯ], Корпус коми-зырянского [ККЗЯ] и Коми-пермяцкого языков [ККПЯ] и т.д. С 2016 г. языковеды ИЯЛИ КарНЦ РАН совместно с исследователями ИПМИ занялись разработкой нового направления, а именно созданием интернет-ресурса «Открытый корпус вепсского и карельского языков» [ВепКар]. Корпус ВепКар является многофункциональным, т.к. содержит большое количество инструментов, позволяющих языковедам успешно использовать этот ресурс в своих исследованиях. В настоящее время размещено более 4,4 тыс. текстов на 46 диалектах карельского и вепсского языков, словари и компьютерные программы для обработки, поиска и представления данных. Основу корпуса составляют письменные тексты различных жанров и типов, созданных начиная с XIX столетия. В корпусе в настоящее время также организована удобная система поиска, которая помогает отфильтровать тексты не только по языковой или стилистической, но и по диалектной принадлежности, или, например, по информанту, собирателю или автору, году записи или году публикации. Поиск лемм возможен по диалектам, частям речи, грамматическим признакам и даже по лексико-семантическим категориям. Таким образом, ВепКар стал основной базой для исследования прибалтийско-финских языков Северо-Запада России. Однако одних лишь текстовых данных недостаточно для проведения качественных фонетических исследований с применением современных программ обработки и анализа речи. В связи с этим в 2022 г. исследователи ИЯЛИ и ИПМИ приступили к работе над созданием Речевого корпуса прибалтийско-финских языков Карелии.   Разработанный Речевой корпус представляет собой собрание звучащих текстов на разных диалектах карельского и вепсского языков, снабженных транскрипцией, разметкой и переводом на русский язык, а также необходимые для работы поисковые фильтры (поиск по языку/диалекту, месту и году записи, информанту и собирателю, источнику). Актуальность исследования обусловлена необходимостью дальнейшего развития корпуса ВепКар, широко востребованного как в научных исследованиях, так и в процессе развития литературных форм карельского и вепсского языков. Применение современных технологий и методик к накопленному на протяжении многих десятилетий полевому материалу в совокупности с новейшими данными позволит восполнить целый ряд лакун, выявленных лингвистами в данной системе ранее. Для наполнения корпуса аудиозаписями карельской и вепсской речи исследователи используют три основных источника: аудиоколлекции Фонограммархива ИЯЛИ КарНЦ РАН, аудиозаписи передач на ливвиковском наречии карельского языка, а также полевые материалы авторов, записанные в ходе экспедиций. Научная новизна обоснована недостатком речевых корпусов прибалтийско-финских языков. Цифровизация архивных и полевых аудио-образцов карельской и вепсской речи в формате Речевого корпуса в дальнейшем сможет упростить обработку и хранение материалов, позволит ввести в научный оборот и представить в открытый доступ уникальные аудиоматериалы, отражающие состояние карельских и вепсских диалектов начиная с середины прошлого столетия. В настоящий момент Речевой корпус содержит пятьдесят аудиофрагментов, длительностью от одной до трех минут, представляющих собой разнообразие карельской и вепсской устной диалектной речи. Особую ценность представляет фрагмент записи валдайской речи, единственный обнаруженный к настоящему времени. Для облегчения работы пользователей с Речевым корпусом и для обеспечения возможности наглядного представления звукового материала была разработана мультимедийная аудио-карта говоров прибалтийско-финской речи Карелии и сопредельных областей. Ситуация, в которой пребывают прибалтийско-финские языки Карелии, можно назвать тревожной. Численность носителей карельского языка, являющегося языком титульной нации республики, и вепсского — языка коренного малочисленного народа Российской Федерации – стремительно сокращается из года в год. Так, например, численность карельского населения в России, по итогам переписи 2020 г. сократилась до 32422 человек (в 2002 году – 60815 человек), вепсского населения до 4534 человек в 2020 году (в 2002 году – 5936 человек). Кроме этого, для вышеназванных языков характерно сужение языкового пространства, поскольку говоры постепенно уходят вместе с деревнями, а молодому поколению преподаются нормированные варианты языков. При этом именно говоры способствуют сохранению национально-культурной идентичности народа.
*Исследование выполнено при финансовой поддержке Российского научного фонда совместно с органами власти Республики Карелия с финансированием из Фонда венчурных инвестиций Республики Карелия (ФВИ РК) проект № 22-28-20215 «Создание речевого корпуса прибалтийско-финских языков Карелии»