XX Открытая конференция студентов-филологов в СПбГУ

Автоматическое определение интонационно выделенных слов в высказывании с использованием синтаксических, лексических и грамматических маркеров

Алла Павловна Меньшикова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

129
2017-04-21
13:55 - 14:10

Ключевые слова, аннотация

Задачей исследования была разработка метода автоматического определения потенциальных интонационно выделенных слов в высказывании на основе данных, которые можно извлечь из текста, а именно: лексических, синтаксических и грамматических признаков. Материалом послужил речевой корпус CORPRES. Поиск интонационно выделенных слов осуществлялся с помощью двух алгоритмов классификации: Conditional Random Fields и наивный байесовский. В докладе представлено описание метода, результаты, преимущества и недостатки каждого из использованных алгоритмов.

Тезисы

Интонационное выделение в рамках данной работы – это активное для восприятия, осуществляемое с помощью просодических средств подчеркивание части высказывания. Выделенное слово становится более значимым на фоне остальных, а также зачастую приобретает дополнительный смысловой оттенок, который, в свою очередь, влияет на смысл высказывания в целом. Целью настоящего исследования является разработка метода автоматического поиска интонационно выделенных слов в тексте на русском языке с использованием синтаксических, грамматических и лексических маркеров. К первым относится рассчитанная на основе обработанных текстов вероятность позиции текущего слова в предложении относительно слова, от которого оно зависит; это значение использовалось для определения наличия или отсутствия инверсии, являющейся важным маркером интонационного выделения. К грамматическим признакам относится часть речи текущего, предыдущего и последующего слов. В качестве лексических признаков учитывалась принадлежность слова (а также зависящих от него, соседних с ним и того, от которого зависит оно само) к таким классам лексики, как: акцентные частицы, интенсивы адвербиального типа, итеративы, кванторные слова, вопросительные слова, наиболее частотные оценочные прилагательные, слова, связанные с отрицанием. В речи единицей, на которой реализуется выделение, является не графическое слово, а фонетическое, т. е. слово, имеющее ударение, с примыкающими к нему клитиками. Это учитывалось при обработке текста.
Для построения классификатора были использованы алгоритмы Conditional Random Fields (программная реализация – CRF++) и наивный байесовский (реализация – классификатор в библиотеке NLTK). Синтаксический разбор текстов осуществлялся при помощи парсера SyntaxNet.
Исследование проводилось на основе материалов речевого корпуса CORPRES. Оттуда были взяты тексты двух художественных повестей, прочитанные восемью дикторами, с обозначениями о том, сколькими дикторами было выделено каждое слово. На данном этапе работы для обучения и тестирования классификатора использовались предложения, где было только одно интонационное выделение, реализованное более, чем тремя дикторами. При обучающей выборке размером в 200 предложений и тестовой выборке в 150 предложений выделенные слова определяются с полнотой 0,68 и точностью 0,60 для метода Conditional Random Fields и полнотой 0,72 и точностью 0,48 для байесовского. Большинство ошибок связано с отсутствием признаков, указывающих на противопоставление (которое часто сопровождается выделением), и невозможностью автоматически определить принадлежность некоторых прилагательных к экспрессивной лексике. Наименее эффективными оказались грамматические признаки соседних и главного слов; наиболее эффективными – синтаксические признаки и лексические признаки слова.