Утро в случайном лесу, или редуцируй меня, если сможешь
Мария Владимировна Дайтер
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Доклад посвящён анализу результатов исследования, целью которого был поиск признаков словоформ, наиболее релевантных для возникновения редукции в русской спонтанной речи. Набор данных был построен на основе текстов Корпуса русской устной речи. Для выделения признаков словоформ, влияющих на возникновение редукции, применялись такие алгоритмы машинного обучения как случайные леса и сверхслучайные деревья. Точность предсказаний не превышала 80%. Цель доклада — рассмотреть причины, которые препятствовали достижению более высоких показателей, и предложить возможные пути их решения.
Тезисы
Редукция — это важная черта устной речи, этот факт неоднократно отмечался многими лингвистами. Тем не менее, не до конца изучен вопрос о том, какие именно признаки оказывают наибольшее влияние на возникновение редукции и её степень, поэтому в прошлом году нами было проведено исследование с целью выделения лингвистических признаков, оказывающих наибольшее влияние на возникновение редукции в русской спонтанной речи. Материалом данного исследования послужили тексты из Корпуса русской устной речи, представляющие собой транскрипции и расшифровки речи участников теле- и радиопередач. Из этих записей были отобраны отдельные словоформы, из которых был сформирован набор данных, размеченный особым образом для построения различных алгоритмов машинного обучения с учителем, таких как случайные леса, сверхслучайные деревья и логистическая регрессия. Для реализации этих алгоритмов использовались библиотеки языка Python: pandas, NumPy и scikit-learn. Для каждой словоформы были указаны часть речи, частотность (в ipm, число употреблений на миллион слов), количество слогов, наличие или отсутствие редуцированного прилагательного или глагола рядом. В результате исследования было установлено, что частотность, количество слогов и в некоторых случаях частеречная принадлежность влияют на возникновение редукции. Тем не менее, точность предсказаний не поднималась выше 80%, что является приемлемым результатом на данном этапе, но тем не менее требует улучшения. В частности, усовершенствования требует набор данных, поскольку его объём, разреженность и небольшое количество признаков могли повлиять на конечный результат. Цель настоящего доклада — рассмотреть достоинства и недостатки используемого подхода и предложить пути повышения точности предсказания.
Исследование выполняется при поддержке гранта РФФИ №19-012-00629.
Исследование выполняется при поддержке гранта РФФИ №19-012-00629.