Исследование языка интернет-блогов
Анастасия Дмитриевна Плетнева
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-04-20
13:20 -
13:40
Ключевые слова, аннотация
В докладе описывается эксперимент по изучению текстов интернет-блогов людей, находящихся на международных стажировках. Будет проведена проверка
правильности гипотезы о том, что лексически подкорпус профессиональных стажировок по направлению маркетинг
больше похож на подкорпус обиходно-бытовой лексики русского языка, а подкорпус по направлению
преподавание — на подкорпус лексики художественных текстов. Методы исследования: корпусная
лингвистика и статистические методы (корреляция).
Тезисы
Описывая свои
впечатления, стажеры начинают вести интернет-блоги. Их анализ с помощью статистических и лингвистических методов был бы полезен для исследования языка интернет-блогов как определенного разговорного жанра.
В докладе описывается эксперимент по изучению текстов интернет-блогов стажеров.
Основные задачи эксперимента:
1. создание корпуса интернет-блогов с выделением в нем подкорпусов по направлению стажировки (маркетинг или преподавание);
2. сравнительный анализ выделенных подкорпусов по заданному критерию;
3. создание частотных словарей лемм каждого подкорпуса;
4. проверка правильности гипотезы о том, что лексически подкорпус по направлению маркетинг больше похож на подкорпус обиходно-бытовой лексики, а подкорпус по направлению преподавание — на подкорпус лексики художественных текстов.
В ходе работы были получены следующие результаты:
1. Опробована система Sketch Engine, позволившая создать нужный нам корпус с выделением списков с указанием частоты вхождения каждого слова. Из них с помощью функции «Blacklist» были исключены все нежелательные слова — имена собственные, слова на иностранных языках, числа, различные символы.
2. Опробованы и использованы формулы корреляции. Данный статистический метод позволил точно отразить степень взаимосвязи между лексикой подкорпусов Национального корпуса русского языка и созданных нами подкорпусов.
3. Проверена гипотеза о схожести лексики различных подкорпусов. Оба созданных нами подкорпуса лексически схожи между собой, как и с подкорпусами обиходно-бытовой и художественной лексики.
4. Сделан вывод о том, что вообще язык интернет-блогов схож с лексикой разговорного стиля речи. В пользу этого вывода говорит множество различных частей речи, таких как предлоги, союзы, простые предлоги, находящихся в списке самых частотных слов подкорпусов по направлениям маркетинг и преподавание.
В дальнейшем планируется изучение лексики этих текстов, выявление общих черт и различий, исследование различных символов, используемых при написании текстов, таких как хэш-тэги и смайлики, ненормативная пунктуация, использование CapsLock.
В докладе описывается эксперимент по изучению текстов интернет-блогов стажеров.
Основные задачи эксперимента:
1. создание корпуса интернет-блогов с выделением в нем подкорпусов по направлению стажировки (маркетинг или преподавание);
2. сравнительный анализ выделенных подкорпусов по заданному критерию;
3. создание частотных словарей лемм каждого подкорпуса;
4. проверка правильности гипотезы о том, что лексически подкорпус по направлению маркетинг больше похож на подкорпус обиходно-бытовой лексики, а подкорпус по направлению преподавание — на подкорпус лексики художественных текстов.
В ходе работы были получены следующие результаты:
1. Опробована система Sketch Engine, позволившая создать нужный нам корпус с выделением списков с указанием частоты вхождения каждого слова. Из них с помощью функции «Blacklist» были исключены все нежелательные слова — имена собственные, слова на иностранных языках, числа, различные символы.
2. Опробованы и использованы формулы корреляции. Данный статистический метод позволил точно отразить степень взаимосвязи между лексикой подкорпусов Национального корпуса русского языка и созданных нами подкорпусов.
3. Проверена гипотеза о схожести лексики различных подкорпусов. Оба созданных нами подкорпуса лексически схожи между собой, как и с подкорпусами обиходно-бытовой и художественной лексики.
4. Сделан вывод о том, что вообще язык интернет-блогов схож с лексикой разговорного стиля речи. В пользу этого вывода говорит множество различных частей речи, таких как предлоги, союзы, простые предлоги, находящихся в списке самых частотных слов подкорпусов по направлениям маркетинг и преподавание.
В дальнейшем планируется изучение лексики этих текстов, выявление общих черт и различий, исследование различных символов, используемых при написании текстов, таких как хэш-тэги и смайлики, ненормативная пунктуация, использование CapsLock.