Автоматическая оценка семантической близости текстов (с использованием инструмента DKPro Similarity)
Анна Владимировна Крюкова
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2017-04-21
13:25 -
13:40
Ключевые слова, аннотация
В докладе рассматривается задача оценки
семантической близости текстов на русском языке с использованием открытой
свободно распространяемой компьютерной платформы DKPro Similarity. В ходе
исследования были проведены эксперименты с лексическими языково-независимыми
метриками близости текстов, а также с семантическими метриками, для которых
нужны внешние источники знаний (например, Википедия). Результаты
исследования подтверждают, что платформа DKPro Similarity пригодна для оценки
семантической близости русскоязычных текстов.
Тезисы
Оценка
смысловой близости текстов является неотъемлемой составляющей многих задач
современной компьютерной лингвистики. Разработка и тестирование алгоритмов и
метрик для оценки семантической близости текстов до сих пор проводились в
основном применительно к материалу английского языка. Это можно
проиллюстрировать классом компьютерных инструментов, созданных для решения этой
задачи: ср. Text
Similarity Perl Module, Text Similarity API, Alchemy API и ряд других. Об успехах в решении задачи свидетельствуют результаты
соревнований SemEval на специальной дорожке Textual Similarity.
Необходимость подобных исследований для русского языка обусловлена востребованностью результатов со стороны прикладных задач. В настоящий момент есть прогресс в области автоматической оценки семантической близости на уровне слов, ср. данные RUSSE. Однако продуктивность решения задачи оценки близости текстов пока мала: акцент делается не на количественных данных о близости текстов, а на результатах кластеризации или классификации большого числа документов в корпусе, например, когда нужно определить тематику корпуса или назначить рубрики для отдельных его сегментов. Наше исследование призвано восполнить существующий пробел.
Мы решаем задачу оценки семантической близости текстов на русском языке средствами открытой и свободно распространяемой компьютерной платформы DKPro Similarity, включающей несколько классов метрик близости текстов и позволяющей применять их для различных языков. Были проведены эксперименты с лексическими языково-независимыми метриками и с семантическими метриками, для которых нужны внешние источники знаний (например, Википедия).
Материалом исследования послужили следующие тексты: научные статьи из корпуса по корпусной лингвистике; сообщения из сегментов «life» и «news» новостного корпуса; фрагменты переводов на русский язык романа В. Набокова «Пнин» тремя авторами (Г. А. Барабтáло, С. Б. Ильиным, Б. М. Носиком); заголовки новостных статей из корпуса парафразов. В ходе работы была проведена предварительная обработка текстов: удалены знаки препинания и, по необходимости, стоп-слова, а также проведена лемматизация слов с использованием библиотеки PyMorphy2. Результаты подтверждают, что платформа DKPro Similarity пригодна для оценки семантической близости русскоязычных текстов. Дальнейшие направления работы связаны с сопоставлением различных метрик и с расширением языкового материала.
Необходимость подобных исследований для русского языка обусловлена востребованностью результатов со стороны прикладных задач. В настоящий момент есть прогресс в области автоматической оценки семантической близости на уровне слов, ср. данные RUSSE. Однако продуктивность решения задачи оценки близости текстов пока мала: акцент делается не на количественных данных о близости текстов, а на результатах кластеризации или классификации большого числа документов в корпусе, например, когда нужно определить тематику корпуса или назначить рубрики для отдельных его сегментов. Наше исследование призвано восполнить существующий пробел.
Мы решаем задачу оценки семантической близости текстов на русском языке средствами открытой и свободно распространяемой компьютерной платформы DKPro Similarity, включающей несколько классов метрик близости текстов и позволяющей применять их для различных языков. Были проведены эксперименты с лексическими языково-независимыми метриками и с семантическими метриками, для которых нужны внешние источники знаний (например, Википедия).
Материалом исследования послужили следующие тексты: научные статьи из корпуса по корпусной лингвистике; сообщения из сегментов «life» и «news» новостного корпуса; фрагменты переводов на русский язык романа В. Набокова «Пнин» тремя авторами (Г. А. Барабтáло, С. Б. Ильиным, Б. М. Носиком); заголовки новостных статей из корпуса парафразов. В ходе работы была проведена предварительная обработка текстов: удалены знаки препинания и, по необходимости, стоп-слова, а также проведена лемматизация слов с использованием библиотеки PyMorphy2. Результаты подтверждают, что платформа DKPro Similarity пригодна для оценки семантической близости русскоязычных текстов. Дальнейшие направления работы связаны с сопоставлением различных метрик и с расширением языкового материала.