Понятие предложения и данные локальных документов на русском языке
Валерия Викторовна Модина
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
В ходе создания корпуса тексты проходят процедуру разбиения
на предложения для последующей обработки. При анализе письменных текстов этот
процесс, как правило, не вызывает значительных затруднений, однако материал корпуса
русских локальных документов CorRIDA демонстрирует сложность определения границ предложений при составлении
и восприятии официальных текстов, что поднимает вопрос о самом понятии
предложения. В рамках доклада на материале корпуса рассматривается соотношение границ
предложения с точки зрения пропозиций, финитности, перцепции и пунктуации.
Тезисы
Процесс составления корпуса нередко сопровождается задачей
разбиения текстов на предложения, что необходимо как для создания
синтаксической разметки, так и для других, более частных, целей. Так, определение
границ предложений оказывается обязательным для оценки понятности текстов,
поскольку многие меры читаемости включают те или иные синтаксические параметры
(например, в формуле Флеша-Кинкайда синтаксическая сложность оценивается
опосредованно как среднее количество слов на предложение). Таким образом,
разбиение текстов на предложения является необходимым этапом при создании
корпуса русских локальных документов CorRIDA в рамках проекта по оценке
сложности официальных документов на русском языке.
Проблема членения текстов на предложения имеет две стороны: техническую и теоретическую. С технической точки зрения реализация автоматического разбиения текстов оказывается затруднена функциональной омонимией пунктуационных знаков: встает вопрос о том, является ли некоторый терминальный знак (в частности, точка) границей предложения. Разработанные ранее алгоритмы с разной степенью точности позволяют отличить отделяющий знак от знака, используемого в датах, web-адресах, сокращениях и др. Однако ввиду объема корпуса (1,5 млн слов), позволяющего проводить мануальную обработку текстов, а также активного использования сокращений в локальных документах (г. Москва, корп. 1, ст. 24 Конституции, Ф. И. О., М. П. и пр.), отсутствия пунктуации на границах заголовков (Согласие на передачу персональных данных третьей стороне) и частотного использования ненормативной пунктуации было решено проводить разбиение частично вручную.
Теоретическая проблематика заключается в определении понятия предложения. Малорелевантная для художественных, публицистических и других часто анализируемых письменных текстов, эта задача остро встает перед исследователями устного дискурса, которые, однако, располагают такими данными о текстах, как интонационный контур или наличие пограничных маркеров типа вот. Данные официальных документов также указывают на затруднения в оформлении предложения, которые возникают при создании (и, вероятно, восприятии) текстов, что отражается в непоследовательном пунктуационном и графическом оформлении как разных текстов, так и одного текста. В рамках доклада материал локальных документов будет проанализирован как отражающий проблематику определения границ предложения с точки зрения пропозиций, финитности, перцепции и пунктуации.
Исследование выполнено при поддержке гранта Российского научного фонда № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».
Проблема членения текстов на предложения имеет две стороны: техническую и теоретическую. С технической точки зрения реализация автоматического разбиения текстов оказывается затруднена функциональной омонимией пунктуационных знаков: встает вопрос о том, является ли некоторый терминальный знак (в частности, точка) границей предложения. Разработанные ранее алгоритмы с разной степенью точности позволяют отличить отделяющий знак от знака, используемого в датах, web-адресах, сокращениях и др. Однако ввиду объема корпуса (1,5 млн слов), позволяющего проводить мануальную обработку текстов, а также активного использования сокращений в локальных документах (г. Москва, корп. 1, ст. 24 Конституции, Ф. И. О., М. П. и пр.), отсутствия пунктуации на границах заголовков (Согласие на передачу персональных данных третьей стороне) и частотного использования ненормативной пунктуации было решено проводить разбиение частично вручную.
Теоретическая проблематика заключается в определении понятия предложения. Малорелевантная для художественных, публицистических и других часто анализируемых письменных текстов, эта задача остро встает перед исследователями устного дискурса, которые, однако, располагают такими данными о текстах, как интонационный контур или наличие пограничных маркеров типа вот. Данные официальных документов также указывают на затруднения в оформлении предложения, которые возникают при создании (и, вероятно, восприятии) текстов, что отражается в непоследовательном пунктуационном и графическом оформлении как разных текстов, так и одного текста. В рамках доклада материал локальных документов будет проанализирован как отражающий проблематику определения границ предложения с точки зрения пропозиций, финитности, перцепции и пунктуации.
Исследование выполнено при поддержке гранта Российского научного фонда № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».