XXII Открытая конференция студентов-филологов в СПбГУ

Разработка системы поиска по Корпусу транскрибированных русских устных текстов

Екатерина Алексеевна Федюкова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

129
2019-04-16
12:55 - 13:10

Ключевые слова, аннотация

В исследовании описан процесс создания системы поиска для Корпуса транскрибированных русских устных текстов, разрабатываемого в Санкт-Петербургском государственном университете. Охарактеризованы связанные с этим проблемы и их возможные решения.

Тезисы

Корпусная лингвистика — одно из самых востребованных направлений прикладного языкознания. Корпусы устной речи отличаются необходимостью долгой подготовки не только текстовых, но и аудиоданных, которые нужно транскрибировать, что делает процесс создания корпуса устных текстов и поисковой системы для него более трудоемким и длительным по времени и объясняет существование достаточно малого количества устных корпусов по сравнению с текстовыми.
Кроме того, функциональная поисковая система по устному корпусу должна содержать несколько способов поиска — как по орфографической записи, так и по фонетической транскрипции, а также по структуре слова с использованием регулярных выражений (напр., если слово неизвестно, но в распоряжении ищущего есть первые несколько букв).
Наличие поисковой системы для корпуса текстов представляется важной задачей при разработке корпуса, так как без этого инструмента невозможен доступ к данным в полном объёме.
Задача создания поисковых систем в настоящий момент актуальна для разных языков и уже находит свои решения на материале языков, отличных от русского. Это подтверждается существованием проекта «Phonetic Corpus of Estonian Spontaneous Speech» (поиск по корпусу доступен по ссылке: murre.ut.ee/otsing/ekskfk.php), реализация поисковой системы в котором представляет интерес для настоящего исследования.
В докладе рассматриваются примеры реализации поисковой системы на различных языках программирования для корпусов транскрибированных устных текстов для различных языков, предпринимается попытка реализовать систему поиска для Корпуса транскрибированных русских устных текстов на языке программирования Python, а также проверяется эффективность разработанной поисковой системы.