XLIII Международная филологическая научная конференция

Процедуры формирования и предобработки специальных корпусов

Виктор Павлович Захаров
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2014-03-14
16:25 - 16:45

Ключевые слова, аннотация

На кафедре МЛ выполнен проект разработки средств и методов создания корпусов специальных текстов, а также их использования как для исследования языка, так и для решения практических лексикографических задач. Среди специальных текстов можно выделить ядерные и периферийные. Ядерные – это прежде всего научные тексты, насыщенные специфической лексикой, отсутствующей в общих словарях. Сюда же относятся некоторые виды научно-технических документов, такие как патенты, стандарты и т.п. Отбор и предварительная обработка связаны с рядом специфических проблем, решению которых и посвящен данный доклад.




Тезисы

Процесс создания корпусов специальных текстов включает определение понятия специального текста, отбор текстов, их предварительную обработку, разметку различного типа, загрузку в корпусный менеджер, определение способов и методов использования. Был проведен анализ существующих международных стандартов корпусной лингвистики, разработаны методические регламентирующие документы и наборы метаданных применительно к специальным корпусам, а также адаптированы программные средства морфологической разметки. Рассмотрены основные параметры специальных корпусов, возможности их варьирования и взаимосвязь с типами лингвистических задач. В ходе реализации проекта были сформулированы принципы формирования специальных корпусов. Суть их можно сформулировать как универсальный подход к лингвистической разметке на стадии предобработки, включающей преобразование к текстовому виду из графических форматов (pdf, djvu и др.), перекодировку, структурный анализ, графематический анализ, токенизацию. Эти процедуры должны учитывать как особенности входных текстов, так и методы последующей лингвистической разметки (морфологический анализ, снятие лексико-грамматической неоднозначности, парсинг, возможно, семантический анализ). В ходе работы были созданы корпусы по 10 предметным областям: компьютерная лингвистика; корпусная лингвистика; гомеопатия; радиотехника; шахматы; футбол; пчеловодство; растения; научно-популярные (журнал «Наука и жизнь»); путешествия.