Компрессия текста в аспекте экспериментального и автоматизированного подходов
Дилара Ахметовна Ичкинеева
Докладчик
доцент
Башкирский государственный университет
Башкирский государственный университет
215-а
2018-03-27
18:50 -
19:20
Ключевые слова, аннотация
текст; компрессия; семантическое картирование текста; информационная система "Семограф"; психолингвистический эксперимент; кластерный анализ
Тезисы
Доклад посвящен изучению механизмов компрессии информации в
процессе восприятия текста с
использованием экспериментальных методов
и автоматизированных методов обработки полученных данных. В качестве основного метода исследования
использовалось семантическое картирование текста, основу которого составляет
психолингвистический эксперимент. В ходе
эксперимента информантам предлагалось выполнить следующие задания: 1) прочитать текст, определить его тему; 2) выделить
микротемы текста и выписать слова,
представляющие эти микротемы в тексте. Реакции, полученные в ходе эксперимента, рассматривались в качестве интерпретации текста, при этом полагалось, что тема
и микротемы текста являются результатом компрессии текста поскольку формулировка
микротемы является обозначением общего принципа, объединяющего слова,
помещенные в одну классификационную ячейку (микротему). Таким образом,
формулировки микротемы и темы должны отражать некоторую часть компрессированного
содержания текста. Эксперимент проводился в информационной системе «Семограф». Построена графосемантическая модель текстов на основе совместной встречаемости слов в одной
микротеме, что позволяет представить скомпрессированное тематическое
пространство как структурное целое. Установлено,
что размер текста не всегда является значимым для компрессии текста, что
позволяет говорить о существовании индивидуальных стратегий компрессии текста. Анализ
формулировок тем и микротем осуществлялся по принципу совпадения /несовпадения
словаря текста и словаря формулировок. Произведен кластерный анализ и
установлено, что лишь 15% формулировок
микротем, выделенных участниками эксперимента, полностью заимствуют словарь текста.