47th International Philological Research Conference

Характеристики коллокаций как признаки для классификации жанра веб-текстов

Maria Vladimirovna Khokhlova
Speaker
доцент
Санкт-Петербургский государственный университет
Виктория Игоревна Рубинер
Speaker
специалист
Санкт-Петербургский государственный университет

193
2018-03-22
16:00 - 16:20

Ключевые слова, аннотация

коллокации; машинное обучение; статистика; веб-тексты; жанры

Summary

В последнее время появилось большое количество корпусов, создаваемых на материале веб-текстов. Одним из критериев традиционного корпуса текстов является его сбалансированность, т. е. определенное соотношение между текстами разных типов. При этом существующие ресурсы зачастую не обладают данным свойством, в том числе ввиду сложности дифференциации материала по жанрам и стилям. Алгоритмы машинного обучения, которые могут быть использованы для автоматической классификации Интернет-страниц, подразумевают использование ряда заранее определенных признаков. В докладе будут рассмотрены особенности коллокаций и их распределение в Интернет-текстах разных жанров (блогов, записей социальных сетей, новостных текстов и др.). Нами были рассмотрены сочетания двух типов: прилагательное + существительное и глагол + существительное. Данные биграммы были извлечены из текстов при помощи статистических методов и частеречных фильтров, а далее была произведена оценка полноты и точности путем сравнения с эталонными (словарными) данными. Полученные результаты могут быть использованы в качестве признаков при автоматической идентификации Интернет-страниц.
Исследование выполнено при поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых № МК-2513.2018.6 «Исследование методов автоматического извлечения лексических конструкций на основе машинного обучения».
Библиография
Sharoff S. Classifying Web corpora into domain and genre using automatic feature identification. In Proceedings of the 3rd Web as Corpus Workshop, 2007. P. 83-94.
Evert S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut für maschinelle Sprachverarbeitung, University of Stuttgart, 2004.
Santini M. Automatic Identification of Genre in Web Pages: A new perspective. LAP LAMBERT Academic Publishing, 2011.