Выявление типовых синтаксических вариантов представления содержания при воспроизведении одного текста
Арина Александровна Щербинина
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-21
12:55 -
13:10
Ключевые слова, аннотация
Доклад посвящен выявлению синонимичных синтаксических
структур и определению ключевой информации текста, наиболее полно и точно воспроизводимой
при его пересказе.
Материалом исследования послужили изложения отрывка статьи
В. М. Пескова «Родина Ломоносова», написанные учениками 8 класса. Вместе с
оригиналом рассматривалось 24 текста.
В результате определены наиболее
часто повторяющиеся в изложениях синтаксические структуры, синонимичные таковым
в оригинальном тексте. Сделаны выводы о распределении ключевой информации
в тексте и ее восприятии разными людьми.
Тезисы
Цель
исследования — определить, какие части текста являются значимыми при его
воспроизведении / пересказе и выявить синонимичные синтаксические структуры,
используемые при этом разными людьми.
Были поставлены следующие задачи:
ознакомиться с работами по составлению одноязычных параллельных корпусов и разрешению трудностей, возникающих в процессе разметки;
изучить практическое применение одноязычных параллельных корпусов (составление Simple Wikipedia, упрощение текстов, машинный перевод);
составить небольшой параллельный корпус текстов на одном языке, выявить с его помощью синонимичные синтаксические структуры и ключевую информацию в текстах.
Исследование проводилось на материале изложений отрывка из статьи В. М. Пескова «Родина Ломоносова», написанных учениками 8 класса. В корпус вошло 24 текста включая оригинал.
После построения и выравнивания корпуса для каждого изложения был построен график, по предложениям отражающий его схожесть с оригиналом. Оценка схожести производилась вручную, при этом учитывалась как тема-рематическая полнота передачи смысла предложения, так и близость синтаксических структур: от абсолютно идентичных до совершенно несопоставимых. Затем с помощью подсчета корреляции были выявлены группы наиболее схожих между собой текстов. Проследив закономерности воспроизведения материала, мы определили информацию, которую члены данной группы посчитали важной и, следовательно, привели максимально полно и точно. Предложения, получившие высокие суммарные оценки схожести в группе, разбивались на фрагменты и рассматривались более детально.
В результате были выявлены наиболее часто используемые синтаксические структуры, синонимичные таковым в оригинальном тексте. Сделан вывод, что практически в 100 % случаев наиболее полно и точно воспроизводятся начало и конец текста, тогда как в середине наблюдаются значительные расхождения.
Были поставлены следующие задачи:
ознакомиться с работами по составлению одноязычных параллельных корпусов и разрешению трудностей, возникающих в процессе разметки;
изучить практическое применение одноязычных параллельных корпусов (составление Simple Wikipedia, упрощение текстов, машинный перевод);
составить небольшой параллельный корпус текстов на одном языке, выявить с его помощью синонимичные синтаксические структуры и ключевую информацию в текстах.
Исследование проводилось на материале изложений отрывка из статьи В. М. Пескова «Родина Ломоносова», написанных учениками 8 класса. В корпус вошло 24 текста включая оригинал.
После построения и выравнивания корпуса для каждого изложения был построен график, по предложениям отражающий его схожесть с оригиналом. Оценка схожести производилась вручную, при этом учитывалась как тема-рематическая полнота передачи смысла предложения, так и близость синтаксических структур: от абсолютно идентичных до совершенно несопоставимых. Затем с помощью подсчета корреляции были выявлены группы наиболее схожих между собой текстов. Проследив закономерности воспроизведения материала, мы определили информацию, которую члены данной группы посчитали важной и, следовательно, привели максимально полно и точно. Предложения, получившие высокие суммарные оценки схожести в группе, разбивались на фрагменты и рассматривались более детально.
В результате были выявлены наиболее часто используемые синтаксические структуры, синонимичные таковым в оригинальном тексте. Сделан вывод, что практически в 100 % случаев наиболее полно и точно воспроизводятся начало и конец текста, тогда как в середине наблюдаются значительные расхождения.