Автоматическое определение интонационно выделенных слов в высказывании с использованием синтаксических, лексических и грамматических маркеров
Алла Павловна Меньшикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-21
13:55 -
14:10
Ключевые слова, аннотация
Задачей исследования была разработка метода автоматического
определения потенциальных интонационно выделенных слов в высказывании на основе
данных, которые можно извлечь из текста, а именно: лексических, синтаксических
и грамматических признаков. Материалом послужил речевой корпус CORPRES. Поиск интонационно выделенных слов осуществлялся с помощью двух алгоритмов классификации: Conditional Random Fields и
наивный байесовский. В докладе представлено описание метода, результаты,
преимущества и недостатки каждого из использованных алгоритмов.
Тезисы
Интонационное
выделение в рамках данной работы – это активное для восприятия, осуществляемое с
помощью просодических средств подчеркивание части высказывания. Выделенное слово становится
более значимым на фоне остальных, а также зачастую приобретает дополнительный
смысловой оттенок, который, в свою очередь, влияет на смысл высказывания в
целом. Целью настоящего исследования является разработка метода автоматического
поиска интонационно выделенных слов в тексте на русском языке с использованием синтаксических,
грамматических и лексических маркеров. К первым относится рассчитанная на
основе обработанных текстов вероятность позиции текущего слова в предложении относительно
слова, от которого оно зависит; это значение использовалось для определения
наличия или отсутствия инверсии, являющейся важным маркером интонационного
выделения. К грамматическим признакам относится часть речи текущего, предыдущего
и последующего слов. В качестве лексических признаков учитывалась принадлежность
слова (а также зависящих от него, соседних с ним и того, от которого зависит
оно само) к таким классам лексики, как: акцентные частицы, интенсивы
адвербиального типа, итеративы, кванторные слова, вопросительные слова,
наиболее частотные оценочные прилагательные, слова, связанные с отрицанием. В
речи единицей, на которой реализуется выделение, является не
графическое слово, а фонетическое, т. е. слово, имеющее ударение, с
примыкающими к нему клитиками. Это учитывалось при обработке текста.
Для построения классификатора были использованы алгоритмы Conditional Random Fields (программная реализация – CRF++) и наивный байесовский (реализация – классификатор в библиотеке NLTK). Синтаксический разбор текстов осуществлялся при помощи парсера SyntaxNet.
Исследование проводилось на основе материалов речевого корпуса CORPRES. Оттуда были взяты тексты двух художественных повестей, прочитанные восемью дикторами, с обозначениями о том, сколькими дикторами было выделено каждое слово. На данном этапе работы для обучения и тестирования классификатора использовались предложения, где было только одно интонационное выделение, реализованное более, чем тремя дикторами. При обучающей выборке размером в 200 предложений и тестовой выборке в 150 предложений выделенные слова определяются с полнотой 0,68 и точностью 0,60 для метода Conditional Random Fields и полнотой 0,72 и точностью 0,48 для байесовского. Большинство ошибок связано с отсутствием признаков, указывающих на противопоставление (которое часто сопровождается выделением), и невозможностью автоматически определить принадлежность некоторых прилагательных к экспрессивной лексике. Наименее эффективными оказались грамматические признаки соседних и главного слов; наиболее эффективными – синтаксические признаки и лексические признаки слова.
Для построения классификатора были использованы алгоритмы Conditional Random Fields (программная реализация – CRF++) и наивный байесовский (реализация – классификатор в библиотеке NLTK). Синтаксический разбор текстов осуществлялся при помощи парсера SyntaxNet.
Исследование проводилось на основе материалов речевого корпуса CORPRES. Оттуда были взяты тексты двух художественных повестей, прочитанные восемью дикторами, с обозначениями о том, сколькими дикторами было выделено каждое слово. На данном этапе работы для обучения и тестирования классификатора использовались предложения, где было только одно интонационное выделение, реализованное более, чем тремя дикторами. При обучающей выборке размером в 200 предложений и тестовой выборке в 150 предложений выделенные слова определяются с полнотой 0,68 и точностью 0,60 для метода Conditional Random Fields и полнотой 0,72 и точностью 0,48 для байесовского. Большинство ошибок связано с отсутствием признаков, указывающих на противопоставление (которое часто сопровождается выделением), и невозможностью автоматически определить принадлежность некоторых прилагательных к экспрессивной лексике. Наименее эффективными оказались грамматические признаки соседних и главного слов; наиболее эффективными – синтаксические признаки и лексические признаки слова.