«Объективно-формальное» и «субъективно-оценочное»: методы компьютерного и экспертного выделения ключевых слов в русскоязычных текстах
Алина Фазиловна Гамзатова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2019-04-16
13:25 -
13:40
Ключевые слова, аннотация
В работе сравниваются два подхода, используемых в выделении ключевых слов: экспертный (осуществляемый людьми с применением приёма
«пристального чтения») и автоматический (являющийся результатом компьютерной
обработки текста). Наличие положительных и отрицательных черт в обоих способах порождает
проблему непродуктивности получаемых сведений. Поискам выявления метода,
позволяющего решить эту проблему, посвящено настоящее исследование.
Тезисы
Ключевые слова являются
основной составляющей любого текста: именно они обеспечивают его целостность.
Ключевые слова (иначе: слова-концепты, лексические доминанты) — «важные слова
или фразы, дающие высокоуровневое описание содержания текстового документа,
позволяющие выявить его тематику» (А. С. Ванюшкин, Л. А. Гращенко). Несмотря на
прозрачность определения термина, вопрос о том, какие слова в тексте являются
ключевыми, остаётся спорным.
В практике выделения ключевых слов существует два подхода: экспертный (осуществляемый людьми) и автоматический (компьютерная обработка текста). Каждый из этих подходов обладает сильными и слабыми сторонами.
Целью работы было выявить наиболее продуктивный способ выделения ключевых слов. Основные задачи: 1) изучить методы выделения ключевых слов людьми (в т. ч. предложенных Н. Н. Ворониной, А. В. Коршуновым, М. Гриневой); 2) проанализировать технологические аспекты автоматического извлечения ключевых слов; 3) определить схожие элементы в методиках выделения слов-концептов экспертным и компьютерным способами.
Анализ особенностей двух подходов приводит к столкновению «субъективно-оценочного» и «объективно-формального». Так, интуитивность в выборе ключевых слов, несоответствие их процентному (25—30%) наличию в тексте относительно прочих слов, замена грамматических форм слов и неосознанное придумывание новых характерны для экспертного подхода. Перечисленные факторы свидетельствуют о субъективности такого подхода и заставляют усомниться в его научности. В то же время, использование экспертной методики вычленения лексических доминант наиболее полно способствует раскрытию тематики текста, т. к. отражает эмоциональные переживания читателя и, как следствие, передаёт сюжетную составляющую произведения.
При автоматическом подходе становится возможным получение данных о частотности употребления слова, степени его «keyness», информации о соотношении отобранных слов к их общему количеству в тексте, что свидетельствует о доказательности и объективности предоставляемых показателей. Это делает компьютерную методику вычленения слов-концептов более научной. Однако при использовании компьютерных программ мы сталкиваемся с проблемой чрезмерной формализации. Так, служебные слова, вследствие их частой повторяемости, определяются более значимыми, чем знаменательные. В результате проведённого исследования оказывается очевидным вывод о том, что наибольшая продуктивность двух описываемых подходов достигается только путём их контаминации.
В практике выделения ключевых слов существует два подхода: экспертный (осуществляемый людьми) и автоматический (компьютерная обработка текста). Каждый из этих подходов обладает сильными и слабыми сторонами.
Целью работы было выявить наиболее продуктивный способ выделения ключевых слов. Основные задачи: 1) изучить методы выделения ключевых слов людьми (в т. ч. предложенных Н. Н. Ворониной, А. В. Коршуновым, М. Гриневой); 2) проанализировать технологические аспекты автоматического извлечения ключевых слов; 3) определить схожие элементы в методиках выделения слов-концептов экспертным и компьютерным способами.
Анализ особенностей двух подходов приводит к столкновению «субъективно-оценочного» и «объективно-формального». Так, интуитивность в выборе ключевых слов, несоответствие их процентному (25—30%) наличию в тексте относительно прочих слов, замена грамматических форм слов и неосознанное придумывание новых характерны для экспертного подхода. Перечисленные факторы свидетельствуют о субъективности такого подхода и заставляют усомниться в его научности. В то же время, использование экспертной методики вычленения лексических доминант наиболее полно способствует раскрытию тематики текста, т. к. отражает эмоциональные переживания читателя и, как следствие, передаёт сюжетную составляющую произведения.
При автоматическом подходе становится возможным получение данных о частотности употребления слова, степени его «keyness», информации о соотношении отобранных слов к их общему количеству в тексте, что свидетельствует о доказательности и объективности предоставляемых показателей. Это делает компьютерную методику вычленения слов-концептов более научной. Однако при использовании компьютерных программ мы сталкиваемся с проблемой чрезмерной формализации. Так, служебные слова, вследствие их частой повторяемости, определяются более значимыми, чем знаменательные. В результате проведённого исследования оказывается очевидным вывод о том, что наибольшая продуктивность двух описываемых подходов достигается только путём их контаминации.