Полуавтоматическое выявление маркеров интолерантности публицистического текста
Карина Александровна Шакирова
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
ауд. 193
2018-04-20
14:40 -
14:55
Ключевые слова, аннотация
Работа посвящена выявлению в тексте лексических маркеров интолерантности. Для этой цели была разработана программа полуавтоматического выявления соответствующих маркеров на основе словарей, полученных в результате обработки текстов газетных изданий и заимствованных из лексикона RuSentiLex. В результате был получен простой и понятный пользователю инструмент, анализирующий усечённые версии слов для лучшего поиска соответствий, подсчитывающий общее количество интолерантных маркеров и уровень интолерантности текста.
Тезисы
Исследование посвящено проблеме применения компьютерных инструментов для определения уровня интолерантности текста на основе лексических маркеров. Основной целью работы является подсчёт интолерантных маркеров с помощью программы полуавтоматического выявления и их дальнейшее использование для определения уровня речевой интолерантности текста.
В качестве базы для словарей нейтральных и интолерантных лексических маркеров были использованы слова из словаря RuSentiLex 2017 г., при этом слова с нейтральной или позитивной тональностью были отнесены к нейтральной категории, а слова с негативной тональностью — к интолерантной категории для лучшего соответствия задаче по выявлению именно интолерантных маркеров. К ним были добавлены слова из новостных текстов и текстов газетных статей за период с октября по декабрь 2017 г. Однако это не гарантирует полноты словарей программы, поэтому добавлена возможность редактирования и пополнения словарей пользователем в процессе анализа текста.
В ходе исследования были отобраны тексты сводок политических новостей изданий «РИА-Новости», «Газета.Ру», «Аргументы и Факты», использованные для составления словаря нейтральной лексики, и тексты авторский статей на политические темы изданий «Грани» и «Аргументы и Факты», использованные для составления словаря интолерантных маркеров (за исключением слов, уже имеющихся в нейтральном словаре). Эти данные были добавлены к словам лексикона RuSentiLex, и, путём удаления повторяющихся слов, были получены начальные словари. Затем программа обрабатывает слова, отсекая последние два символа, и дальше проверяет все усечённые слова текста на присутствие в нейтральном или интолерантном словаре. При обнаружении нового слова программа уточняет у пользователя, необходимо ли добавлять его в какой-либо из словарей. По желанию пользователя словари могут быть обновлены и сохранены, также может быть сохранён отдельно словарь интолерантных маркеров в полном (неусечённом) виде. После окончания анализа программа выводит список обнаруженных маркеров, их общее количество и долю по отношению к объёму текста, что позволяет сделать вывод об уровне речевой интолерантности автора. Программа разработана на языке Python 3.6.0, пользовательский интерфейс написан с использованием библиотеки tkinter.
В результате работы был получен простой и интуитивно понятный инструмент для обработки текста, позволяющий быстро выявить лексические маркеры интолерантности. Такой инструмент может быть полезен как лингвистам при анализе политических текстов и текстов СМИ, так и журналистам для проверки написанных работ и пользователям-неспециалистам для критического анализа прочитанных статей.