LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Методы компьютерной и квантитативной лингвистики для анализа региональных СМИ

Ольга Валерьевна Донина
Докладчик
доцент
Воронежский государственный университет

193
2023-03-16
16:25 - 16:45

Ключевые слова, аннотация

Text Mining; квантитативная лингвистика; компьютерная лингвистика; медиакоммуникация; медиалингвистика.

В рамках выступления предлагается рассмотреть возможности использования методов Text Mining для анализа региональных СМИ на материале районных новостных публикаций СМИ Воронежской области.

Тезисы

В рамках исследования были рассмотрены возможности использования методов Text Mining для анализа районных новостных публикаций СМИ Воронежской области.
Объектом работы выступили публикации новостей тридцати трех районов Воронежской области, в объеме 13 284 новостных статей за 9 лет (с 2013 по 2021 год) из онлайн источника «РИА Воронеж». Общее число словоформ составило 2 447 677.
При помощи инструментария для анализа данных (PolyAnalyst), морфологического анализа (MyStem) и создания вероятностной тематической модели (Topic Modeling Tool) из текстовой выборки были извлечены сущности (187 054), факты (94 104) и ключевые слова (12 080); проведена кластеризация тремя способами (по k-средних (выявлено 9 кластеров), при помощи тематического моделирования (15 кластеров) и bag-of-terms (30 кластеров)), реализован анализ тональности (обнаружено 10 870 оценочных конструкций) и реферирование коллекции текстовых документов (объем символов в выборке сократился на 67,1%). Полученные результаты были визуализированы при помощи графиков, графов и карт.
Были реализованы шесть методов извлечения информации из текстовых данных на материале районных СМИ Воронежской области. На основе полученных результатов можно охарактеризовать важные элементы области. Например, каждый район и населенный пункт были отнесены к нескольким темам, что позволяет узнать о наиболее важных событиях и распространенных происшествиях; была получена информация о ключевых проблемах жителей и о том, что им нравится; были выявлены наиболее тесные связи между людьми, компаниями, организациями, территориальными административными единицами, природными объектами и объектами культуры и инфраструктуры.
Отразим основные количественные и качественные результаты исследования:
- При извлечении сущностей было выявлено наибольшее количество административно-территориальных единиц (49 062 сущности; города Воронежской области занимают 26,9% от общего числа населенных пунктов, а муниципалитеты Воронежа 84,3% от общего числа районов), людей (47 284 сущности; наиболее упоминаемыми являются политики и должностные лица области), организаций (18 118 сущностей; наибольшее число учебных заведений, больниц и административных учреждений) и компаний (11 795 сущностей; преимущественно медиа, социальные сети, хозяйственные и добывающие предприятия);
- Результатом извлечения ключевых слов стали языковые единицы, связанные с населенными пунктами (район, область, регион, село), образованием (школа), происшествиями (уголовное дело, лишение свободы, пожар, ДТП);
- В ходе кластеризации публикации были объединены в группы, схожие с тематическими разделами «РИА Воронеж», однако наиболее крупные разделы были разделены (разделу «Общество» соответствует 4 кластера — «Культура и образование», «Семья», «Инфраструктура» и «Администрация», а «Происшествия» — «Пожары», «ДТП», «Уголовные дела» и «Суды и финансы»);
- Анализ тональности определил наиболее негативные (здоровье и травма в результате последствий происшествий) и положительную (работа как вид деятельности) языковые единицы в публикациях;
- В следующих населенных пунктах Воронежской области СМИ наиболее часто освящают происшествия (пожары, ДТП, убийства и т.п.): Верхняя Хава, Нововоронеж, Таловая, Борисоглебск, Терновка, Петропавловка;
- Районы, которые наиболее часто упоминаются в публикациях про ДТП: Каширский, Анинский, Калачаевский, Каменский, Грибановский и Рамонский;
- Деятельность администрации чаще освящается в таких районах как Нижнедевицкий, Семилукский, Кантемировский, Петропавловский и Каменский;
- Тема спорта наиболее актуальна для Бутулиновского, Хохольского, Терновского, Рамонского, Поворинского и Павловского районов;
- С 2016 года тема происшествий имеет нисходящую тенденцию, а публикации, посвященные деятельности населения, культуре, истории, музеям и заповедникам, становятся более актуальными;
- Если в новостной публикации в названии должности отражен пол, то женский персонал (работница и сотрудница) оценивается исключительно негативно, а мужской (работник и сотрудник) имеет больше положительных оценок, чем отрицательных;
- Самая большая группа объектов, которые оцениваются положительно в районных новостных публикациях — «Еда и напитки». 
- Наибольшее число конструкций со словом «нравиться» связаны с: культурными местами и мероприятиями (выставка, фестиваль, музей), спортом (биатлон, футбол, тренажер,) и хобби (фотографировать, рукоделие, рисовать);

- Со словом «проблема» наиболее тесно связаны: здоровье (сердце, позвоночник, зрение, память) и жилищно-коммунальное хозяйство (вода, отопление, освещение).