Алгоритм автоматической расстановки ударений в рядах графических омонимов
Александр Денисович Пиксасов
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2024-04-26
16:30 -
16:45
Ключевые слова, аннотация
В настоящем докладе анализируется алгоритм автоматической расстановки ударений в рядах графических омонимов (омографах). Рассмотрены методы снятия неоднозначности, предложено решение снятия омографии, сделан обзор работы алгоритма, его обучения и тестирования.
Тезисы
Ключевые слова: омография; снятие омографии; автоматическая расстановка ударений; алгоритм автоматической расстановки ударений.
В современном мире все большее внимание уделяется одной из наиболее важных и сложных задач компьютерной лингвистики, а именно — снятию омонимии и омографии. Данная проблема актуальна для таких направлений, как корпусная лингвистика, морфологический и семантический анализ, автоматический перевод текстов, распознавание речи и её синтез. В настоящее время синтез речи — это одно из наиболее активно развивающихся направлений компьютерной лингвистики. Синтезаторы речи становятся частью повседневной жизни, ведь они задействованы в таких актуальных отраслях и направлениях, как звуковые оповещения, информационные службы и т. д., становясь частью нашей повседневной жизни. В связи с этим усовершенствование данной технологии, а именно снятие омографии, становится крайне необходимым. Исследование будет направлено на снятие омографии в рядах омографах: напр., существительные ви́на ‘музыкальный инструмент’ и винá ‘проступок’ образуют 6 омографических рядов грамматически равнозначных словоформ и 4 ряда грамматически неравнозначных словоформ, ср.: ви́на (им. п. ед. ч.) — винá (им. п. ед. ч.), ви́ны (род. п. ед. ч.) — вины́ (род. п. ед. ч.), ви́не (дат. п. ед. ч.) — винé (дат. п. ед. ч.) и т. д. Методы разрешения неоднозначности при анализе текста принято разделять на синтаксический и последующий морфологический анализы предложения и на статистические методы. Морфологический анализ заключается в парсинге структуры предложения и анализе окружения омонима, статистический — в обучении вероятностной модели на основе речевых корпусов. В данном исследовании будут использованы статистические методы. Исследование заключается в создании семантических классов для каждого омографа, напр., омографу замок соответствуют следующие семантические классы: S_1: «башня», «стоять», «гора»; S_2: «щеколда», «открыть», «взломать». Омографы были взяты из словаря омографов Джерзи Калижана [Kaliszan, 2015]. Далее для каждого примера в семантическом классе подсчитывается его векторная близость с помощью библиотеки Gensim, на основании которой модель RusVectores, обученная на Национальном корпусе русского языка и Википедии, подбирает каждому примеру 100 квазисинонимов вместе с собственными весами, которые являются векторной близостью. Напр., для S_1 омографа замок можно подобрать следующие квазисинонимы: купол, крыша, цитадель, холм, вершина и т. д. Каждому семантическому классу проставляется собственное ударение, и данная комбинация (омограф, его семантические классы и квазисинонимы) была названа «словарем». В дальнейшем для оценки работы системы будет составлена выборка из Национального корпуса русского языка, состоящая из 120 текстов, содержащих в себе омографы. Далее в омографах в данных текстах будут вручную расставлены ударения при использовании словаря омографов Джерзи Калижана. После этого на первой половине созданной выборки будет протестирована работа программы в целях посчитать её точность, и по окончании тестирования проставленные ударения в омографах программой будут сравнены с проставленными ударениями в омографах вручную. После исправления работы алгоритма на второй половине выборки будет проведено повторное тестирование.
Литература:
Kaliszan J. Slownik homografow. Poznań, 2015.
В современном мире все большее внимание уделяется одной из наиболее важных и сложных задач компьютерной лингвистики, а именно — снятию омонимии и омографии. Данная проблема актуальна для таких направлений, как корпусная лингвистика, морфологический и семантический анализ, автоматический перевод текстов, распознавание речи и её синтез. В настоящее время синтез речи — это одно из наиболее активно развивающихся направлений компьютерной лингвистики. Синтезаторы речи становятся частью повседневной жизни, ведь они задействованы в таких актуальных отраслях и направлениях, как звуковые оповещения, информационные службы и т. д., становясь частью нашей повседневной жизни. В связи с этим усовершенствование данной технологии, а именно снятие омографии, становится крайне необходимым. Исследование будет направлено на снятие омографии в рядах омографах: напр., существительные ви́на ‘музыкальный инструмент’ и винá ‘проступок’ образуют 6 омографических рядов грамматически равнозначных словоформ и 4 ряда грамматически неравнозначных словоформ, ср.: ви́на (им. п. ед. ч.) — винá (им. п. ед. ч.), ви́ны (род. п. ед. ч.) — вины́ (род. п. ед. ч.), ви́не (дат. п. ед. ч.) — винé (дат. п. ед. ч.) и т. д. Методы разрешения неоднозначности при анализе текста принято разделять на синтаксический и последующий морфологический анализы предложения и на статистические методы. Морфологический анализ заключается в парсинге структуры предложения и анализе окружения омонима, статистический — в обучении вероятностной модели на основе речевых корпусов. В данном исследовании будут использованы статистические методы. Исследование заключается в создании семантических классов для каждого омографа, напр., омографу замок соответствуют следующие семантические классы: S_1: «башня», «стоять», «гора»; S_2: «щеколда», «открыть», «взломать». Омографы были взяты из словаря омографов Джерзи Калижана [Kaliszan, 2015]. Далее для каждого примера в семантическом классе подсчитывается его векторная близость с помощью библиотеки Gensim, на основании которой модель RusVectores, обученная на Национальном корпусе русского языка и Википедии, подбирает каждому примеру 100 квазисинонимов вместе с собственными весами, которые являются векторной близостью. Напр., для S_1 омографа замок можно подобрать следующие квазисинонимы: купол, крыша, цитадель, холм, вершина и т. д. Каждому семантическому классу проставляется собственное ударение, и данная комбинация (омограф, его семантические классы и квазисинонимы) была названа «словарем». В дальнейшем для оценки работы системы будет составлена выборка из Национального корпуса русского языка, состоящая из 120 текстов, содержащих в себе омографы. Далее в омографах в данных текстах будут вручную расставлены ударения при использовании словаря омографов Джерзи Калижана. После этого на первой половине созданной выборки будет протестирована работа программы в целях посчитать её точность, и по окончании тестирования проставленные ударения в омографах программой будут сравнены с проставленными ударениями в омографах вручную. После исправления работы алгоритма на второй половине выборки будет проведено повторное тестирование.
Литература:
Kaliszan J. Slownik homografow. Poznań, 2015.