Автоматизация маркирования оценочной лексики в экспертных текстах
Кристина Сергеевна Кочергина
Докладчик
аспирант
Томский государственный университет
Томский государственный университет
129
2015-04-07
16:30 -
16:50
Ключевые слова, аннотация
Доклад посвящён разработке программного обеспечения для поддержки процедуры лингвистической экспертизы. Описываются основные этапы работы: от составления словаря оценочной лексики до реализации алгоритма в программе. Выделяется пять групп оценочной лексики, в зависимости от степени выраженности отрицательной оценки – что соответствует технологии проведения анализа тональности текста (sentiment analysis). Процесс автоматизации заключается в поиске в конфликтных текстах оценочной лексики, представленной в словаре, а именно в выводе контекстов, маркировании и оценивании найденной в них лексики.
Тезисы
Экспертная оценка конфликтных текстов в большинстве случаев проводится экспертами-лингвистами традиционным способом – вручную, с опорой на данные толковых словарей русского языка. Актуальным является разработка и применение автоматизированных способов анализа конфликтных текстов. Цель доклада – описание разработанной методики для автоматизации процедуры лингвистической экспертизы. Процесс автоматизации заключается в поиске в конфликтных текстах оценочной лексики, представленной в словаре.
Основные этапы работы: 1) составление словаря оценочной лексики, 2) разработка алгоритма поиска оценочной лексики в конфликтных текстах и 3) его реализация на языке программирования C++.
Составление словаря производится ручным способом с опорой на «Русский семантический словарь» под редакцией Н. Ю. Шведовой. Выбор данного словаря обусловлен идеографическим принципом его построения: в тематических разделах присутствуют наименования лиц с оценочными пометами, а также выделяется раздел «Брань, хула».
Алгоритм поиска оценочной лексики основан на технологии sentiment analysis (анализ тональности текста), описанной в работах B. Pang, L. Lee, B. Liu и др. Инвективная лексика разделяется на 5 классов в зависимости от степени выраженности отрицательной оценки (каждому слову присваивается значение от 1 до 5): 1) амбивалентная лексика, 2) лексика с семантикой положительной оценки в сочетании со словами-отрицаниями, 3) лексика с негативным оценочным компонентом, 4) брань, хула, 5) обсценная лексика.
Работа программы, реализующей алгоритм поиска оценочной лексики, заключается в выводе соответствующих контекстов, маркировании лексических единиц и их оценивании по шкале от 1 до 5 (по степени выраженности отрицательной оценки). Внимание эксперта обращается на эти «сигналы»: на основе полученных данных лингвист-эксперт интерпретирует результаты работы программы, опираясь на свои профессиональные знания. Использование программы в качестве поддержки процедуры проведения судебной лингвистической экспертизы позволяет повысить степень объективации полученных результатов, оптимизировать процесс анализа конфликтных текстов.