Исследование ассоциативных связей лексических единиц в текстах социальных сетей на основе методов дистрибутивной семантики
Анна Андреевна Антипенко
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
ауд. 193
2018-04-19
14:10 -
14:25
Ключевые слова, аннотация
Целью
исследования является лингвистический анализ языкового сознания современного
общества по данным корпуса социальных сетей, проведение ассоциативного
эксперимента по автоматическому извлечению ассоциативных связей в корпусе
социальных сетей с помощью алгоритмов и инструментов дистрибутивной семантики.
Тезисы
Данная
работа посвящена анализу ассоциативных связей между лексическими единицами — основному методу исследования языкового сознания в психолингвистике. Материалом
работы являются тексты особого типа дискурса — интернет-дискурса, которые
максимально приближены к устной речи. Существующие инструменты анализа
естественного языка позволяют выявлять семантически близкие слова, основываясь
на методах дистрибутивной семантики и векторных представлениях слов. Можно
предположить, что близкие по значению слова, встречающиеся в одних и тех же
контекстах, связаны в языковом сознании человека ассоциативными отношениями, а
связи между ними объяснимы как связи между стимулом и реакцией при
ассоциативном эксперименте. Извлечение данных связей представляет собой
актуальную задачу.
Цель исследования — лингвистический анализ языкового сознания современного общества по данным корпуса социальных сетей, проведение экспериментов по автоматическому извлечению ассоциативных связей в корпусе социальных сетей с помощью алгоритмов и инструментов дистрибутивной семантики.
Для проведения исследования требуется решить следующие задачи:
— разработать методику исследования языкового сознания носителей по данным текстов в социальных сетях;
— провести предобработку и лемматизацию корпуса текстов;
— освоить алгоритмы дистрибутивной семантики и их программные реализации;
— произвести отбор тестового списка лексем, выражающих ключевые понятия языкового сознания носителей русского языка, для которых извлекаются ассоциации;
— организовать и провести ассоциативный эксперимент по данным корпуса;
— сравнить полученные данные с данными Русского ассоциативного словаря (РАС) и Русского дистрибутивного тезауруса (РДТ).
Научная новизна исследования заключается в адаптации методологии очной работы с испытуемыми к условиям исследования текстового общения носителей русского языка в социальных сетях, в получении новых данных о динамике языкового сознания носителей русского языка, в верификации этих данных по данным разноплановых источников.
В результате проделанной работы были сделаны следующие выводы:
— создано системное описание лексических единиц, выражающих ключевые понятия языкового сознания носителей русского языка;
— возможными причинами расхождений полученных данных с данными РАС и РДТ являются различие текстовых источников, ориентированность методов на разные типы связей, а также специфичность ассоциаций для хронологического среза и круга носителей русского языка;
— зарегистрированные совпадения отражают устойчивые синтагматические ассоциации;
— при учете парадигматических связей между лексическими единицами количество совпадений существенно возрастает.
Цель исследования — лингвистический анализ языкового сознания современного общества по данным корпуса социальных сетей, проведение экспериментов по автоматическому извлечению ассоциативных связей в корпусе социальных сетей с помощью алгоритмов и инструментов дистрибутивной семантики.
Для проведения исследования требуется решить следующие задачи:
— разработать методику исследования языкового сознания носителей по данным текстов в социальных сетях;
— провести предобработку и лемматизацию корпуса текстов;
— освоить алгоритмы дистрибутивной семантики и их программные реализации;
— произвести отбор тестового списка лексем, выражающих ключевые понятия языкового сознания носителей русского языка, для которых извлекаются ассоциации;
— организовать и провести ассоциативный эксперимент по данным корпуса;
— сравнить полученные данные с данными Русского ассоциативного словаря (РАС) и Русского дистрибутивного тезауруса (РДТ).
Научная новизна исследования заключается в адаптации методологии очной работы с испытуемыми к условиям исследования текстового общения носителей русского языка в социальных сетях, в получении новых данных о динамике языкового сознания носителей русского языка, в верификации этих данных по данным разноплановых источников.
В результате проделанной работы были сделаны следующие выводы:
— создано системное описание лексических единиц, выражающих ключевые понятия языкового сознания носителей русского языка;
— возможными причинами расхождений полученных данных с данными РАС и РДТ являются различие текстовых источников, ориентированность методов на разные типы связей, а также специфичность ассоциаций для хронологического среза и круга носителей русского языка;
— зарегистрированные совпадения отражают устойчивые синтагматические ассоциации;
— при учете парадигматических связей между лексическими единицами количество совпадений существенно возрастает.