Кластеризация текстов: IDF — реальность или миф?
Кирилл Кириллович Боярский
Докладчик
доцент
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
193
2016-03-17
16:00 -
16:20
Ключевые слова, аннотация
Обсуждается
влияние обратной документной частоты терминов (IDF) на качество кластеризации
текстовых фрагментов. Проведена автоматическая кластеризация текстов разных жанров:
общественно-политических, рецептов из поваренной книги, статей экономического
словаря. Показано, что во многих случаях учет IDF не только не улучшает, но даже
снижает степень соответствия автоматически полученных кластеров смысловому делению
текста.
Тезисы
При решении задач обработки текстов важное место занимает
этап группировки текстовых фрагментов в близкие по смыслу кластеры. Для этого
часто используется векторная модель документов. [1] Документом может быть целый
текст, а может и отдельный абзац. В каждом документе выявляются термины —
встреченные в тексте слова, за исключением стоп-слов. Определяются веса
терминов, в пространстве терминов строится вектор документа, вычисляется мера
сходства построенных векторов, и наиболее близкие документы объединяются в кластеры.
Для определения весов терминов обычно используют модель «TF-IDF», в которой вес термина определяется
как произведение количества вхождений термина в данный документ (TF) на обратную документную
частоту (IDF). Параметр
IDF имеет низкие значения,
если термин встречается во многих документах. Считается, что такие термины снижают
различие между документами. Однако и термины с высокой встречаемостью обладают
высокой «смысловой» классифицирующей силой.
Рассмотрим пример, приведенный в [1]. Коллекция содержит шесть документов со следующими терминами:
1. китайский, Пекин, китайский;
2. китайский, китайский, Шанхай;
3. китайский, Макао;
4. Токио, Япония, китайский;
5. китайский, китайский, китайский, Токио, Япония;
6. Токио, Пекин.
Правдоподобной является гипотеза, что документы образуют два кластера: относятся к Китаю — к Китаю и Японии. Термин китайский имеет очень низкий коэффициент IDF, поэтому при агломеративной кластеризации по TF-IDF уже на первых шагах помимо очевидного кластера образуется кластер. Кластеризация без учета IDF формирует «правильный» кластер. Предположение о том, что учет IDF не улучшает качества кластеризации, было проверено на текстах разной тематики. Анализ производился парсером SemSin. [2]
Поваренная книга Молоховец, раздел «Приготовление напитков». Шесть групп рецептов. Две группы выделены правильно при обоих способах анализа, в трех случаях без IDF точнее.
Статьи общественно-политической направленности. Первая статья содержит 30 абзацев. Без IDF в кластер объединено 29 абзацев плюс 18 абзацев из других статей, с IDF — 22 + 24.
Экономический словарь, 1092 статьи, разбитых на 11 смысловых групп. В четырех случаях лучше соответствие кластеров, полученных без IDF, в одном — с IDF.
Таким образом, можно сделать вывод, что лексический состав текста не тождественен смысловому наполнению, и учет IDF, по меньшей мере, не улучшает качества кластеризации.
Список литературы:
[1] Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011.
[2] Боярский К. К., Каневский Е. А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. 2015. №5.
Рассмотрим пример, приведенный в [1]. Коллекция содержит шесть документов со следующими терминами:
1. китайский, Пекин, китайский;
2. китайский, китайский, Шанхай;
3. китайский, Макао;
4. Токио, Япония, китайский;
5. китайский, китайский, китайский, Токио, Япония;
6. Токио, Пекин.
Правдоподобной является гипотеза, что документы образуют два кластера: относятся к Китаю — к Китаю и Японии. Термин китайский имеет очень низкий коэффициент IDF, поэтому при агломеративной кластеризации по TF-IDF уже на первых шагах помимо очевидного кластера образуется кластер. Кластеризация без учета IDF формирует «правильный» кластер. Предположение о том, что учет IDF не улучшает качества кластеризации, было проверено на текстах разной тематики. Анализ производился парсером SemSin. [2]
Поваренная книга Молоховец, раздел «Приготовление напитков». Шесть групп рецептов. Две группы выделены правильно при обоих способах анализа, в трех случаях без IDF точнее.
Статьи общественно-политической направленности. Первая статья содержит 30 абзацев. Без IDF в кластер объединено 29 абзацев плюс 18 абзацев из других статей, с IDF — 22 + 24.
Экономический словарь, 1092 статьи, разбитых на 11 смысловых групп. В четырех случаях лучше соответствие кластеров, полученных без IDF, в одном — с IDF.
Таким образом, можно сделать вывод, что лексический состав текста не тождественен смысловому наполнению, и учет IDF, по меньшей мере, не улучшает качества кластеризации.
Список литературы:
[1] Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011.
[2] Боярский К. К., Каневский Е. А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. 2015. №5.