Определение речевых признаков психотипов с применением нейронных сетей
Виктория Михайловна Земляк
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
ауд. 184
2018-04-19
12:15 -
12:35
Ключевые слова, аннотация
Исследование посвящено классификации текстов по психотипам их авторов с помощью рекуррентных нейронных сетей. Классификация осуществлялась по типологии К. Г. Юнга. Работа призвана проверить точность определения психотипа на разных наборах речевых признаков. Признаки, базовые для классификатора, показавшего лучший результат, можно считать характерными маркерами психотипов. Материалом послужили анкетные тексты 240 респондентов. Точность (67%) была получена на основе выделения частотности частей речи, буквенных символов, знаков пунктуации и различных грамматических конструкций.
Тезисы
Любая психологическая типология пытается дать ответ на
вопрос о том, как устроено сознание, мышление человека. При этом очевидно, что
между мышлением и речью существует определенная корреляция и особенности
сознания индивида должны тем или иным способом реализовываться в языке. В таком
случае подтверждение наличия в речи разных психологических типов неких
характерных классифицирующих особенностей можно считать подтверждением
релевантности соответствующей типологии.
Целью данной работы стала проверка точности разных методов классификации текстов по типологии К. Г. Юнга. Материалом для исследования послужили тексты заполненной анкеты с вопросами, требующими развернутого ответа-рассуждения. В анкетировании приняли участие 240 респондентов обоих полов в возрасте 19-30 лет. Длина каждого текста составляет не менее 3500 символов. Психотип каждого респондента был определен с помощью тестов-опросников И. Д. Вайсбанда, В. В. Мегедь и А. А. Овчарова, В. В. Гуленко, В. Л. Таланова, И. Майерс-Бриггс. Стоит отметить, что в работе использовалась модифицированная версия типологии Юнга, представляющая собой две отдельные, самостоятельные классификации по шкалам логики-этики и интуиции-сенсорики.
C помощью программы, выполненной на языке Python с применением библиотеки keras, предобработанные тексты респондентов были проанализированы на предмет выявления закономерностей между теми или иными лингвистическими особенностями и психотипом его автора. В ее основу легла рекуррентная нейронная сеть с долгой краткосрочной памятью (LSTM), структура которой включает в себя два скрытых слоя с сигмоидальной функцией активации. Рекуррентная сеть способна «запоминать» свое предыдущее состояние, поэтому данный вид архитектуры нейронных сетей предназначен для работы с последовательностями, в которых важен порядок расположения элементов.
Векторизация текста проводилась двумя способами: 1) текст представлялся как вектор из чисел, каждое из которых означает количественное значение того или иного параметра, который теоретически должен маркировать тексты определенного психотипа (частотность каких-либо грамматических категорий, отдельных символов, знаков препинания и др.); 2) каждое слово предварительно токенизированного текста помещалось в векторное пространство на основе той или иной метрики или технологии (в частности, TF-IDF и представление по частям речи).
Первый способ представления текста показал лучшую точность (до 67%), при этом он требует менее сложной архитектуры сети. Таким образом, модель представления каждого слова текста как точки в векторном пространстве даже с учетом порядка слов оказалась менее эффективной, чем упрощенные статистические модели, основанные на подсчете тех или иных признаков.
Целью данной работы стала проверка точности разных методов классификации текстов по типологии К. Г. Юнга. Материалом для исследования послужили тексты заполненной анкеты с вопросами, требующими развернутого ответа-рассуждения. В анкетировании приняли участие 240 респондентов обоих полов в возрасте 19-30 лет. Длина каждого текста составляет не менее 3500 символов. Психотип каждого респондента был определен с помощью тестов-опросников И. Д. Вайсбанда, В. В. Мегедь и А. А. Овчарова, В. В. Гуленко, В. Л. Таланова, И. Майерс-Бриггс. Стоит отметить, что в работе использовалась модифицированная версия типологии Юнга, представляющая собой две отдельные, самостоятельные классификации по шкалам логики-этики и интуиции-сенсорики.
C помощью программы, выполненной на языке Python с применением библиотеки keras, предобработанные тексты респондентов были проанализированы на предмет выявления закономерностей между теми или иными лингвистическими особенностями и психотипом его автора. В ее основу легла рекуррентная нейронная сеть с долгой краткосрочной памятью (LSTM), структура которой включает в себя два скрытых слоя с сигмоидальной функцией активации. Рекуррентная сеть способна «запоминать» свое предыдущее состояние, поэтому данный вид архитектуры нейронных сетей предназначен для работы с последовательностями, в которых важен порядок расположения элементов.
Векторизация текста проводилась двумя способами: 1) текст представлялся как вектор из чисел, каждое из которых означает количественное значение того или иного параметра, который теоретически должен маркировать тексты определенного психотипа (частотность каких-либо грамматических категорий, отдельных символов, знаков препинания и др.); 2) каждое слово предварительно токенизированного текста помещалось в векторное пространство на основе той или иной метрики или технологии (в частности, TF-IDF и представление по частям речи).
Первый способ представления текста показал лучшую точность (до 67%), при этом он требует менее сложной архитектуры сети. Таким образом, модель представления каждого слова текста как точки в векторном пространстве даже с учетом порядка слов оказалась менее эффективной, чем упрощенные статистические модели, основанные на подсчете тех или иных признаков.