XX Открытая конференция студентов-филологов в СПбГУ

Исследование значимых лингвистических характеристик в задаче автоматического определения типа автора

Анастасия Дмитриевна Плетнева
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

129
2017-04-21
12:40 - 12:55

Ключевые слова, аннотация

В докладе описывается эксперимент по изучению значимых лингвистических характеристик текстов интернет-блогов волонтеров, находящихся на международных стажировках. На данном этапе составлен корпус текстов блогов, создан частотный список слов и проведено исследование тональности слов и предложений текста, а также эмотиконов для выявления эмоциональной оценки авторов по отношению к стажировкам. В ходе эксперимента были использованы корпусный, статистический и дистрибутивный анализ.

Тезисы

Многие люди выбирают международные стажировки как способ получения волонтерского и бытового опыта. 
Описывая свои впечатления, стажеры начинают вести интернет-блоги. Их анализ с помощью статистических и лингвистических методов интересен для исследования языка интернет-блогов как определенного разговорного жанра, а также в задаче автоматического распознавания типа их автора. 
В докладе описывается эксперимент по изучению значимых лингвистических характеристик текстов интернет-блогов волонтеров. 
Основные задачи эксперимента: создание корпуса интернет-блогов волонтерских стажировок на русском языке; создание списков ключевых слов с указанием их частот; графематическая обработка текстов: замена всех графических эмотиконов в текстах блогов на текстовые; выделение и группировка эмотиконов в соответствии с обозначаемой эмоцией, составление частотного списка полученных элементов; анализ тональности слов и предложений и сопоставление их со словарем тональности LINIS Crowd SENT; определение взаимосвязи между частотой употребления определенных эмотиконов с полученными оценками тональности слов и предложений блогов. 
В ходе исследования были получены следующие результаты: тексты волонтерских стажировок отличает большая эмоциональность. Она выражается по большей части в текстовых (55%), графических (25%) эмотиконах и в эмоционально-окрашенных словах (10%). При этом отмечается, что предложений с положительной тональностью большинство (55%). Отмечена большая пунктационная ненормативность текстов: повсеместно используются такие знаки препинания, как многоточие, вопросительные и восклицательные знаки. При этом не была замечена неграмотность написанных текстов, внутри предложений смысловые единицы (приложения, причастные и деепричастные обороты, однородные члены предложения) верно выделены пунктационно.
В дальнейшем планируется изучение идиоматических n-грамм текстов блогов, сравнение их со словарем русской идиоматики Г. И. Кустовой, а также исследование типичных для этих текстов структур предложений.