XLVII Международная филологическая научная конференция

Компрессия текста в аспекте экспериментального и автоматизированного подходов

Дилара Ахметовна Ичкинеева
Докладчик
доцент
Башкирский государственный университет

215-а
2018-03-27
18:50 - 19:20

Ключевые слова, аннотация

текст; компрессия; семантическое картирование текста; информационная система "Семограф"; психолингвистический эксперимент; кластерный анализ

Тезисы

Доклад посвящен изучению механизмов компрессии информации в процессе восприятия текста с использованием экспериментальных методов и автоматизированных методов обработки полученных данных. В качестве основного метода исследования использовалось семантическое картирование текста, основу которого составляет психолингвистический эксперимент. В ходе эксперимента информантам предлагалось выполнить следующие задания: 1) прочитать текст, определить его тему; 2) выделить микротемы текста и выписать слова, представляющие эти микротемы в тексте. Реакции, полученные в ходе эксперимента, рассматривались в качестве интерпретации текста, при этом полагалось, что тема и микротемы текста являются результатом компрессии текста поскольку формулировка микротемы является обозначением общего принципа, объединяющего слова, помещенные в одну классификационную ячейку (микротему). Таким образом, формулировки микротемы и темы должны отражать некоторую часть компрессированного содержания текста. Эксперимент проводился в информационной системе «Семограф». Построена графосемантическая модель текстов на основе совместной встречаемости слов в одной микротеме, что позволяет представить скомпрессированное тематическое пространство как структурное целое. Установлено, что размер текста не всегда является значимым для компрессии текста, что позволяет говорить о существовании индивидуальных стратегий компрессии текста. Анализ формулировок тем и микротем осуществлялся по принципу совпадения /несовпадения словаря текста и словаря формулировок. Произведен кластерный анализ и установлено, что лишь 15% формулировок микротем, выделенных участниками эксперимента, полностью заимствуют словарь текста.