Ошибки в русскоязычном Интернет-корпусе и их влияние на качество результатов
Мария Владимировна Хохлова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2022-03-17
16:00 -
16:20
Ключевые слова, аннотация
Интернет-корпус; русский язык; ошибки; орфография; веб-тексты;
качество текстов
Тезисы
Лавинообразное развитие Интернета
привело к тому, что качество веб-текстов неизменно ухудшается. Ошибки в них
встречаются всё чаще, что не может не сказываться на результатах поиска,
особенно, если эти тексты используются в научных целях: например, для создания
корпусов или при обучении языкам. Таким образом, наблюдается необходимость изучить
существующие корпусы, основанные на веб-текстах, и наметить способы улучшения
их качества, если они содержат ошибки.
В нашем исследовании мы обратимся к
анализу русскоязычного корпуса Aranea
Russicum Maximum [Benko 2014]. Среди найденных ошибок были
выделены следующие: ошибки кодировки, некорректное отображение шрифтов,
орфографические ошибки, морфологические ошибки, иноязычные вкрапления и
неверное распознавание символов. Все они приводят к искажению частот, а также к
тому, что результаты запросов пользователей не будут корректно отображаться.
Нами проанализированы основные типы ошибок (графематические, ошибки кодировки и
распознавания), была дана предварительная оценка их распространенности в
корпусе и обозначены способы их устранения.
Обратимся ниже к некоторым случаям
графематических ошибок. Неверная раскладка, которая используется при наборе
текста, приводит к тому, например, что русскоязычные слова написаны при помощи
латинских символов. Несмотря на то, что автоматические системы переключают
раскладку с кириллической на латинскую и наоборот, такие ошибки встречаются в
текстах чатов или комментариев. Так, ghbdtn используется вместо «привет», rfr
— вместо «как» или ltkf вместо — «дела» (часть конструкции «Как дела?»). Указанные
примеры аннотированы в корпусе при помощи тега Z, который используется для обозначения
пунктуации.
Комбинирование строчных и прописных букв
также составляет проблему для последующей лемматизации и морфологической
разметки. Верхний регистр может указывать на ударение (например, «бОльший»),
особенности произнесения (например, «сердеШный») или аббревиатуры (например,
«мАч»). В ряде случае достаточно конвертировать написание к одному регистру
(обычно к нижнему), чтобы слова были корректно распознаны и лемматизированы.
Тексты, которые содержат
проанализированные нами ошибки, характеризируются низким качеством в целом. Согласно
предварительным результатам, «грязные» тексты составляют немногим более 1,5% от
общего объёма корпуса. Тем не менее, очистка данных заслуживает дальнейшего
внимания.
Список
использованной литературы
Benko, V. (2014). Aranea: Yet another family of
(comparable) web corpora. In International Conference on
Text, Speech, and Dialogue, Springer, 247–256.