Процедуры формирования и предобработки специальных корпусов
Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-14
16:25 -
16:45
Ключевые слова, аннотация
На кафедре МЛ выполнен проект разработки средств
и методов создания корпусов специальных текстов, а также их использования как
для исследования языка, так и для решения практических лексикографических
задач. Среди специальных текстов можно выделить ядерные и периферийные. Ядерные
– это прежде всего научные тексты, насыщенные специфической лексикой,
отсутствующей в общих словарях. Сюда же относятся некоторые виды
научно-технических документов, такие как патенты, стандарты и т.п. Отбор и
предварительная обработка связаны с рядом специфических проблем, решению которых и посвящен данный доклад.
Тезисы
Процесс создания корпусов специальных текстов включает определение понятия
специального текста, отбор текстов, их предварительную обработку, разметку
различного типа, загрузку в корпусный менеджер, определение способов и методов
использования. Был проведен анализ существующих международных стандартов
корпусной лингвистики, разработаны методические регламентирующие документы и
наборы метаданных применительно к специальным корпусам, а также адаптированы
программные средства морфологической разметки. Рассмотрены основные параметры
специальных корпусов, возможности их варьирования и взаимосвязь с типами
лингвистических задач.
В ходе реализации проекта были сформулированы принципы формирования
специальных корпусов. Суть их можно сформулировать как универсальный подход к
лингвистической разметке на
стадии предобработки, включающей преобразование к текстовому виду из
графических форматов (pdf,
djvu и др.),
перекодировку, структурный анализ, графематический анализ, токенизацию. Эти
процедуры должны учитывать как особенности входных текстов, так и методы
последующей лингвистической разметки (морфологический анализ, снятие
лексико-грамматической неоднозначности, парсинг, возможно, семантический
анализ).
В ходе работы были
созданы корпусы по 10 предметным областям: компьютерная
лингвистика; корпусная лингвистика; гомеопатия; радиотехника; шахматы; футбол; пчеловодство; растения; научно-популярные
(журнал «Наука и жизнь»); путешествия.