XXVII Open Conference for Philology Students

Автоматическое разграничение омографов

Иван Игоревич Столяров
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

157
2024-04-27
17:30 - 17:45

Ключевые слова, аннотация

В докладе рассматривается проблема снятия омографии — одна из актуальных задач предобработки текста для синтеза речи. На материале мини-корпуса омографов, составленного на основе НКРЯ, анализируются различные методы для разграничения омографов разных типов. В качестве оптимального решения предлагается два возможных подхода.

Тезисы

Ключевые слова: омографы; снятие неоднозначности; предобработка текста

Доклад посвящен проблеме разграничения омографов — слов одной или разных частей речи, совпадающих в написании, но различающихся звучанием и имеющих разные значения [Емельянова, 2003]. В русском языке омография связана с разной постановкой ударения (за́мок замо́к, ру́ки руки́) и практикой неразличения на письме букв «е» и «ё» (все может означать и все, и всё). В некоторых случаях возможна комбинация указанных факторов: бе́регберёг, жены́жёны. Снятие омографии, т. е. определение правильного варианта произнесения омографа в данном контексте, представляет собой важную прикладную задачу, которую необходимо решать, в частности, в системах синтеза речи по тексту, поскольку от правильной расстановки ударений напрямую зависит качество синтезированной речи.
Для настоящего исследования был разработан мини-корпус омографов на основе Национального корпуса русского языка. На данный момент мини-корпус включает в себя 6200 контекстов для 50 омографов разных типов. Каждый контекст представлен распространенным предложением с целевым омографом. Для отдельных групп омографов в корпус включен также широкий контекст, представляющий собой группу из 3—5 предложений (50—100 слов).
В работе проводится обзор и тестирование доступных решений для снятия омографии — использование автоматических расстановщиков ударений (RusStress и RUAccent); обращение к тезаурусу RuWordNet для обработки лексических омографов (а́тласатла́с, о́рганорга́н); использование теггеров и морфоанализаторов (Natasha, RNNMorph, spaCy и т. д.) для разграничения грамматических (го́рыгоры́, учи́теляучителя́) и лексико-грамматических (бе́лкабелка́, ве́стивести́) омографов; применение машинного обучения для обработки омографов всех типов. Также в случае лексических омографов рассматривается возможность использования ключевых слов, извлеченных из широкого контекста с помощью библиотеки RuTermExtract.
Для оптимального решения поставленной задачи предлагается два возможных варианта. Первый вариант предполагает различный подход к обработке омографов разных типов: для разграничения лексических омографов анализируется семантическое сходство между ближайшим контекстом омографа и словами, системно связанными с омографом (гипонимами, гиперонимами и т. д.); для снятия неоднозначности в остальных случаях разрабатываются лексико-грамматические правила с использованием функционала библиотеки spaCy. В качестве альтернативного варианта рассматривается единый подход к разграничению омографов всех типов на основе контекстуализированных эмбеддингов, генерируемых с помощью моделей семейства BERT [Nicolis, Klimkov, 2021]. Оба подхода позволяют достичь в среднем 85% и выше точности снятия омографии. Представляется, что предложенные решения могут лечь в основу программного модуля для предобработки текста в системах синтеза речи или использоваться в иных ситуациях, требующих снятия рассмотренного вида неоднозначности.

Литература:
Емельянова О. Н. Омонимия и смежные явления // Стилистический энциклопедический словарь русского языка / Отв. ред. М. Н. Кожина. М., 2003. С. 263–267.
Nicolis M., Klimkov V. Homograph disambiguation with contextual word embeddings for TTS systems // Proc. 11th ISCA Speech Synthesis Workshop (SSW 11). 2021. URL: https://www.isca-archive.org/ssw_2021/nicolis21_ssw.html (accessed: 25.02.2024).