XXII Открытая конференция студентов-филологов в СПбГУ

Автоматическое членение текста на синтагмы с использованием синтаксических признаков

Алла Павловна Меньшикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

ауд. 157
2019-04-18
15:20 - 15:40

Ключевые слова, аннотация

В докладе представлен метод для автоматического членения текста на просодические единицы, использующий данные синтаксического анализа. Метод опирается на предположение о том, что синтагматические границы можно предсказывать, учитывая границы синтаксических групп, а также синтаксические отношения, связывающие группы и единицы внутри них. Материалом исследования служат данные речевого корпуса CORPRES, синтаксический разбор текста осуществляется автоматически с помощью нейросетевого парсера SyntaxNet.

Тезисы

Целью исследования является разработка системы для автоматического членения русского письменного текста на синтагмы с учетом его синтаксических характеристик. Практическая применимость системы обусловлена ее актуальностью для синтеза речи, в котором необходимо решать задачу членения текста на просодические единицы для последующего описания их интонационного оформления.
Известно, что большое значение в предсказании членения текста имеет пунктуация. Однако распространены случаи, когда расстояние между двумя ближайшими знаками пунктуации значительно превышает среднюю длину синтагмы (3—4 слова), в таком случае членение осуществляется диктором исходя из иных признаков. Для предсказания границ внутри таких отрезков может быть применен синтаксический анализ, поскольку членение на синтагмы тесно связано с делением текста на смысловые и, соответственно, синтаксические единицы. 
В работе были использованы материалы корпуса CORPRES. Синтаксический анализ данных был осуществлен с помощью парсера SyntaxNet, размечающего синтаксические связи в терминах Универсальных зависимостей (UD). 
Был проведен анализ материала для выявления соответствий между просодическими и синтаксическими единицами. Был составлен список синтаксических отношений, позволяющих предсказать синтагматическое членение — возможное или обязательное наличие границы синтагмы, ее обязательное отсутствие между связанными конкретным отношением единицами или вокруг них. Полученные признаки были формально описаны в рамках системы Универсальных зависимостей. 
Основой процедуры автоматического членения является выделение синтаксических групп, среди которых на последующих этапах могут быть найдены описанные конструкции. Синтаксической группой в рамках исследования считается синтаксическое поддерево, управляемое словом, зависящим от корня клаузы (сказуемого), либо от его однородного члена. При пересечении поддеревьев считается, что между ними есть граница группы. Средняя длина группы по корпусу — 2 слова. Пример разбиения предложения на синтаксические единицы (заключены в квадратные скобки) и просодические (согласно дикторскому прочтению; фигурные скобки): {[на самом-то деле]} {[почти все мальчишки] [у нас]} {[в кого-нибудь] [влюблены]}. Была реализована процедура разбиения на синтаксические группы, целью которой было найти наибольшее число синтагматических границ, не находящихся в соседстве со знаками препинания. 73% таких границ совпадают с полученными границами синтаксических групп, что позволяет предположить, что синтаксис может быть использован для предсказания границ синтагм там, где этого не может сделать пунктуация. Внедрение в систему формализованных признаков и правил по объединению нескольких групп в одну синтагму позволит увеличить точность процедуры, которая в данный момент составляет 12%.