Чем дальше в лес, тем меньше слов: автоматическое предсказание редукции в устной речи на материале русского языка
Мария Владимировна Дайтер
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Доклад посвящен автоматическому предсказанию фонетической редукции словоформ в русской спонтанной речи. Материалом для исследования послужили тексты из Корпуса русской устной речи. Из этих записей были извлечены отдельные словоформы, которые впоследствии были размечены для составления набора данных. Ход исследования — построение алгоритмов машинного обучения. Цель исследования — выяснить, какие признаки определяют, редуцируется ли словоформа, сравнить эффективность различных алгоритмов при решении данной задачи.
Тезисы
Редукция является неотъемлемой частью устной речи, что неоднократно отмечалось в трудах многих лингвистов. При этом не до конца изучен вопрос о том, какие именно признаки в большей степени определяют, будет ли редуцирована словоформа.
Материалом для данного исследования послужили тексты из Корпуса русской устной речи (http://russpeech.spbu.ru/) — транскрипции и расшифровки речи участников теле- и радиопередач. Из этих записей были отобраны отдельные словоформы, из которых был составлен набор данных, размеченный особым образом для построения алгоритмов машинного обучения, таких, как деревья решений, случайные леса и логистическая регрессия. Для каждой словоформы были указаны часть речи, частотность (в ipm), количество слогов, наличие или отсутствие редуцированного прилагательного или глагола рядом.
Цель исследования — выяснить, какие признаки имеют наибольшее значение при редукции, и сравнить эффективность различных алгоритмов, предсказывающих вероятность редукции словоформ, при решении данной задачи. Деревья решений хорошо восстанавливают сложные закономерности, но легко переобучаются. Случайные леса, представляющие композиции деревьев решений, обладают лучшей способностью к обобщению, но требуют больше времени для построения, чем деревья решений. Алгоритмы логистической регрессии достаточно просты для построения, но при этом их качество очень сильно зависит от подбора признаков. Для реализации алгоритмов использовалась библиотека scikit-learn языка Python.
Данные, полученные в ходе работы, важны как для расширения понимания процессов порождения речи и обработки естественного языка человеком, так и для улучшения работы систем автоматического синтеза и распознавания речи.
Исследование выполняется при поддержке гранта РФФИ №19-012-00629.
Материалом для данного исследования послужили тексты из Корпуса русской устной речи (http://russpeech.spbu.ru/) — транскрипции и расшифровки речи участников теле- и радиопередач. Из этих записей были отобраны отдельные словоформы, из которых был составлен набор данных, размеченный особым образом для построения алгоритмов машинного обучения, таких, как деревья решений, случайные леса и логистическая регрессия. Для каждой словоформы были указаны часть речи, частотность (в ipm), количество слогов, наличие или отсутствие редуцированного прилагательного или глагола рядом.
Цель исследования — выяснить, какие признаки имеют наибольшее значение при редукции, и сравнить эффективность различных алгоритмов, предсказывающих вероятность редукции словоформ, при решении данной задачи. Деревья решений хорошо восстанавливают сложные закономерности, но легко переобучаются. Случайные леса, представляющие композиции деревьев решений, обладают лучшей способностью к обобщению, но требуют больше времени для построения, чем деревья решений. Алгоритмы логистической регрессии достаточно просты для построения, но при этом их качество очень сильно зависит от подбора признаков. Для реализации алгоритмов использовалась библиотека scikit-learn языка Python.
Данные, полученные в ходе работы, важны как для расширения понимания процессов порождения речи и обработки естественного языка человеком, так и для улучшения работы систем автоматического синтеза и распознавания речи.