44th International Philological Research Conference

Нелокальные синтаксические связи в русском тексте

Кирилл Кириллович Боярский
Докладчик
доцент
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Евгений Александрович Каневский
Докладчик
ведущий научный сотрудник
ИПРЭ РАН

193
2015-03-12
15:00 - 15:20

Ключевые слова, аннотация

При автоматическом анализе текстов и построении деревьев подчинения достаточно часто связываются слова, удаленные друг от друга на значительное расстояние. Исследованы частоты появления таких нелокальных связей, показано, что их доля в зависимости от типа может составлять десятки процентов. Особенно это существенно для связей, исходящих из предикатных вершин (субъектные, обстоятельственные и т. д.), а также для анафорических. Поэтому анализ только ближнего контекста терминов недостаточен для адекватного выделения из текста информации, носящей онтологический или сценарный характер.

Тезисы

Среди задач анализа текстов важное место занимают вопросы автоматического выделения словосочетаний определенных типов, причем зачастую носящих семантический характер. Типичным способом решения часто является определение шаблонов поиска типа «согласованные прилагательное + существительное», «существительное + существительное в род. падеже» и более сложные [1]. Однако в большинстве случаев анализируются контактно стоящие в строке n-граммы. В то же время даже устойчивый термин может быть разорван посторонними словами и, следовательно, не будет обнаружен. И тем более это справедливо при выявлении свойств концептов онтологий и построении сценариев, использующих предикатные элементы.
Нами был предпринят эксперимент по оценке встречаемости нелокальных связей (в данной работе не менее пяти слов между связываемыми словами). Для этого с помощью парсера SemSin [2] строились деревья подчинения, после чего производился подсчет распределения по длинам связей разных типов. Анализ производился на двух наборах текстов общеполитического характера из интернета, объемом 34 и 12,5 тыс. слов, а также на текстах узкой предметной области: главы объемом 2,5 и 6 тыс. слов, посвященные устройству парусного вооружения судов из книг [3,4].

Анализ показал, что для нелокальные связи, особенно характерны для предикатов. А именно такие связи важны для построения сценариев. Это прежде всего нелокальные связи с субъектом, в зависимости от типа текста их от 10 до 20%. Например:
Нижняя сторона, обычно несколько изогнутая кверху, с помощью шкотов и галсов прикрепляется к нижележащему рею.
Нелокальное расположение различных типов обстоятельств и дополнений встречается с частотой 10–20%:
Если в России говорят о том, что нас объединяет (культура, отношение к личности, к Богу), то в Евросоюзе – совсем о другом.
В общественно-политических текстах с частотой около 20% встречается удаленное расположение фамилии человека и его должности или специальности, а такие связи чрезвычайно важны для установления кореферентных отношений:
старший следователь по особо важным делам Следственного комитета при прокуратуре РФ Владимир Соловьев.
Особый интерес представляют анафорические связи между местоимениями и их антецедентами. Среди таких связей нелокальных оказывается 40–50%, причем их длина может быть очень большой:
Запад вынужден будет вступить в диалог, потому что его бьют на том поле, которое он всегда считал своим.
Каждый парус заимствует имя свое от мачты или рея, которым он принадлежит.
Парсер SemSin позволяет выявлять анафорические связи не только в пределах предложения, но и в пределах целого абзаца. Естественно, в этом случае возрастает степень нелокальности:
Тогда я понял: европейские ценности для Европы не абсолютны, а относительны и даже конъюнктурны. Парадокс, но мы не можем от них отказываться, именно потому, что сама Европа от них отказалась (28 слов между антецедентом и местоимением).
Таким образом, анализ ближнего контекста терминов недостаточен для адекватного выделения из текста информации, носящей онтологический или сценарный характер.

Литература:
1. Большакова Е. И. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текста. // Труды международной конференции «Диалог 2007» – М.: Изд-во РГГУ, 2007. С. 70–75.
2. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin // URL: http://www.dialog-21.ru/digest/2012/?type=doc. [Электронный ресурс].
3. Курти Орацио. Постройка моделей судов. Энциклопедия судомоделизма. Сокращенный пер. с итал. А.А. Чебана. Л.: Судостроение, 1977. 544 с.
4. Ромм Шарль. Морское искусство или Главные начала и правила, научающие искусству строения, вооружения, правления и вождения кораблей. Пер. с франц. А.А. Шишков. Типография Морского шляхетского кадетского корпуса. Часть 1, 1793. 542 с.