Моделирование границ высказываний в спонтанной монологической речи

Антон Анатольевич Степихов

Докладчик

старший научный сотрудник
Российский государственный педагогический университет им. А. И. Герцена

Александр Владимирович Шипило

Докладчик

старший лаборант
Санкт-Петербургский государственный университет

157
2016-03-16

14:40 - 15:00

Ключевые слова, аннотация

В докладе представлены первые результаты статистического моделирования границ предложений в спонтанной речи. Материалом исследования является корпус русских спонтанных монологов, содержащий информацию об экспертном членении на предложения и морфологическую разметку. Целью анализа было выявление степени точности модели автоматического определения межфразовых границ, в основе которой лежит экспертная (ручная) разметка спонтанной речи.

Тезисы

Спустя более чем полвека изучения русской спонтанной речи проблема ее членения на предложения остается одной из ключевых как для лингвистики, так и для компьютерных наук. Проблема заключается в том, что устная речь в отличие от письменного текста не содержит пунктуационных знаков и поэтому не может быть подвергнута однозначной сегментации. Сложность членения спонтанного текста на фразы связана как с самим характером неподготовленной речи, изобилующей различными сбоями в процессе говорения, так и с языковыми особенностями, например, широким распространением в устной речи бессоюзия.
Тем не менее, информация о межфразовых границах важна для анализа текста как лингвистами, так и автоматическими системами. Наличие границ между предложениями оптимизирует работу информационно-поисковых систем, улучшает автоматическую морфологическую и синтаксическую разметку, автоматическое реферирование текста, а также облегчает восприятие человеком автоматически распознанной речи, представленной в виде текста.
Сведения о межфразовых границах получают путем ручной или автоматической сегментации орфографической расшифровки устного текста. Ручная сегментация основывается на экспертной разметке, автоматическая — на компьютерных моделях. Большинство из них стремится воспроизвести ручную разметку, которая считается своего рода «золотым стандартом» для определения межфразовых границ в спонтанной речи.
Результаты проведенного исследования базируются на корпусе русских спонтанных монологов (160 текстов разных типов, 9 часов звучания), который содержит информацию об экспертном членении текстов на предложения и грамматическую разметку, полученную с помощью морфоанализатора Sketch Engine. Размеченные и обработанные данные были в дальнейшем подвергнуты статистическому анализу. Целью анализа было выявление степени точности модели автоматического определения межфразовых границ, в основе которой лежит экспертная (ручная) разметка спонтанной речи. В качестве базовой модели была выбрана n-граммная модель, алгоритм которой основывался на грамматических характеристиках словоформ на границах предложений, полученных в результате экспертного членения корпусных данных. Обучающая выборка, на базе которой проходила тренировка статистической модели, составила 80% корпуса. Работа модели на тестовой выборке показала следующие результаты:
а) модель на базе триграмм: количество правильно распознанных границ предложений — 71%;
б) модель на базе пентаграмм: количество правильно распознанных границ предложений — 36%.
В то же время модель на базе пентаграмм, уступая триграммной модели в точности по распознаванию границ, показала лучший результат по распознаванию отсутствия границы (86% vs 67%) и ложному членению (более чем в два раза).

XLV Международная филологическая научная конференция

Моделирование границ высказываний в спонтанной монологической речи

Ключевые слова, аннотация

Тезисы