XX Открытая конференция студентов-филологов в СПбГУ

Выявление типовых синтаксических вариантов представления содержания при воспроизведении одного текста

Арина Александровна Щербинина
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

129
2017-04-21
12:55 - 13:10

Ключевые слова, аннотация

Доклад посвящен выявлению синонимичных синтаксических структур и определению ключевой информации текста, наиболее полно и точно воспроизводимой при его пересказе. Материалом исследования послужили изложения отрывка статьи В. М. Пескова «Родина Ломоносова», написанные учениками 8 класса. Вместе с оригиналом рассматривалось 24 текста. В результате определены наиболее часто повторяющиеся в изложениях синтаксические структуры, синонимичные таковым в оригинальном тексте. Сделаны выводы о распределении ключевой информации в тексте и ее восприятии разными людьми.

Тезисы

Цель исследования — определить, какие части текста являются значимыми при его воспроизведении / пересказе и выявить синонимичные синтаксические структуры, используемые при этом разными людьми.
Были поставлены следующие задачи:
ознакомиться с работами по составлению одноязычных параллельных корпусов и разрешению трудностей, возникающих в процессе разметки;
изучить практическое применение одноязычных параллельных корпусов (составление Simple Wikipedia, упрощение текстов, машинный перевод);
составить небольшой параллельный корпус текстов на одном языке, выявить с его помощью синонимичные синтаксические структуры и ключевую информацию в текстах.
Исследование проводилось на материале изложений отрывка из статьи В. М. Пескова «Родина Ломоносова», написанных учениками 8 класса. В корпус вошло 24 текста включая оригинал.
После построения и выравнивания корпуса для каждого изложения был построен график, по предложениям отражающий его схожесть с оригиналом. Оценка схожести производилась вручную, при этом учитывалась как тема-рематическая полнота передачи смысла предложения, так и близость синтаксических структур: от абсолютно идентичных до совершенно несопоставимых. Затем с помощью подсчета корреляции были выявлены группы наиболее схожих между собой текстов. Проследив закономерности воспроизведения материала, мы определили информацию, которую члены данной группы посчитали важной и, следовательно, привели максимально полно и точно. Предложения, получившие высокие суммарные оценки схожести в группе, разбивались на фрагменты и рассматривались более детально.
В результате были выявлены наиболее часто используемые синтаксические структуры, синонимичные таковым в оригинальном тексте. Сделан вывод, что практически в 100 % случаев наиболее полно и точно воспроизводятся начало и конец текста, тогда как в середине наблюдаются значительные расхождения.