Ошибки в русскоязычном Интернет-корпусе и их влияние на качество результатов

Мария Владимировна Хохлова

Докладчик

доцент
Санкт-Петербургский государственный университет

193
2022-03-17

16:00 - 16:20

Ключевые слова, аннотация

Интернет-корпус; русский язык; ошибки; орфография; веб-тексты; качество текстов

Тезисы

Лавинообразное развитие Интернета привело к тому, что качество веб-текстов неизменно ухудшается. Ошибки в них встречаются всё чаще, что не может не сказываться на результатах поиска, особенно, если эти тексты используются в научных целях: например, для создания корпусов или при обучении языкам. Таким образом, наблюдается необходимость изучить существующие корпусы, основанные на веб-текстах, и наметить способы улучшения их качества, если они содержат ошибки.

В нашем исследовании мы обратимся к анализу русскоязычного корпуса Aranea Russicum Maximum [Benko 2014]. Среди найденных ошибок были выделены следующие: ошибки кодировки, некорректное отображение шрифтов, орфографические ошибки, морфологические ошибки, иноязычные вкрапления и неверное распознавание символов. Все они приводят к искажению частот, а также к тому, что результаты запросов пользователей не будут корректно отображаться. Нами проанализированы основные типы ошибок (графематические, ошибки кодировки и распознавания), была дана предварительная оценка их распространенности в корпусе и обозначены способы их устранения.

Обратимся ниже к некоторым случаям графематических ошибок. Неверная раскладка, которая используется при наборе текста, приводит к тому, например, что русскоязычные слова написаны при помощи латинских символов. Несмотря на то, что автоматические системы переключают раскладку с кириллической на латинскую и наоборот, такие ошибки встречаются в текстах чатов или комментариев. Так, ghbdtn используется вместо «привет», rfr — вместо «как» или ltkf вместо — «дела» (часть конструкции «Как дела?»). Указанные примеры аннотированы в корпусе при помощи тега Z, который используется для обозначения пунктуации.

Комбинирование строчных и прописных букв также составляет проблему для последующей лемматизации и морфологической разметки. Верхний регистр может указывать на ударение (например, «бОльший»), особенности произнесения (например, «сердеШный») или аббревиатуры (например, «мАч»). В ряде случае достаточно конвертировать написание к одному регистру (обычно к нижнему), чтобы слова были корректно распознаны и лемматизированы.

Тексты, которые содержат проанализированные нами ошибки, характеризируются низким качеством в целом. Согласно предварительным результатам, «грязные» тексты составляют немногим более 1,5% от общего объёма корпуса. Тем не менее, очистка данных заслуживает дальнейшего внимания.

Список использованной литературы

Benko, V. (2014). Aranea: Yet another family of (comparable) web corpora. In International Conference on Text, Speech, and Dialogue, Springer, 247–256.

50-я Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Ошибки в русскоязычном Интернет-корпусе и их влияние на качество результатов

Ключевые слова, аннотация

Тезисы