XIX Открытая конференция студентов-филологов в СПбГУ

Проектирование лингвистической базы данных отрицательно-оценочной лексики

Кристина Сергеевна Кочергина
Докладчик
аспирант
Томский государственный университет

193
2016-04-20
13:40 - 14:00

Ключевые слова, аннотация

Доклад посвящен описанию структуры лингвистической базы данных отрицательно-оценочных лексико-семантических единиц. Охарактеризовано наполнение 12 полей — столбцов таблицы. В качестве источников наполнения базы данных использованы три толковых словаря русского языка: «Русский семантический словарь» (первый том), «Современный толковый словарь русского языка», «Новый словарь русского языка. Толково-словообразовательный». База данных представляет сведения о стилистической маркированности слов из указанных словарей в сопоставлении, может быть использована в экспертной практике конфликтных текстов.

Тезисы

Одним из перспективных направлений на пересечении областей прикладной лингвистики и современной лексикографии является создание баз данных (далее: БД). Формат БД обладает рядом преимуществ перед традиционными толковыми словарями, поскольку позволяет хранить систематизированную информацию и осуществлять быстрый поиск, а также имеет открытую структуру для внесения изменений.
Цель настоящего доклада заключается в описании структуры лингвистической БД отрицательно-оценочных лексико-семантических единиц (далее: ЛСЕ). Лингвистическая БД представляет собой совокупность систематизированных лингвистических данных 
— ЛСЕ и их параметров. ЛСЕ — имена существительные с семантикой номинации лица и группы лиц. Под параметрами ЛСЕ понимаются их значимые признаки и характеристики, извлеченные из авторитетных современных толковых словарей. Источники материала для наполнения БД: первый том «Русского семантического словаря» (1998) (далее: РСС), «Современный толковый словарь русского языка» (2002) (далее: СТС), «Новый словарь русского языка. Толково-словообразовательный» (2000) (далее: НС).
Проектируемая нами БД включает более 1900 ЛСЕ. Каждая строка таблицы базы данных, называемая записью, содержит сведения о ЛСЕ. Каждый параметр ЛСЕ заносится в соответствующий столбец — поле. В поле «Код» указан уникальный код для каждой записи, являющийся порядковым номером ЛСЕ. Наполнение поля «ЛСЕ» — отрицательно-оценочные ЛСЕ, выбранные из РСС. Поле «Отсылка» содержит указания на наличие семантической связи с другой ЛСЕ. В полях «РСС», «СТС» и «НС» приводятся стилистические пометы из этих словарей в соответствии с принятой в них системой помет. «Толкование»: толкование приводится из РСС. При многозначных словах указывается только то значение, которое выражает семантику отрицательной оценки. «Тип значения»: в данном поле делается отметка «перен.» в случаях непрямого значения ЛСЕ. Столбец «Доп. информация» заполняется информацией двух типов — хронологической пометой «устар.» и семантической пометой «собир.». «Комментарий» содержит извлеченную из РСС информацию различного характера, напр., о сфере употребления, об этимологии ЛСЕ. В поле «ТГ» указывается тематическая группа, к которой относится ЛСЕ. В поле «Стр.» записаны сведения о постраничном расположении ЛСЕ в словнике РСС.
Таким образом, структуру БД формируют 12 полей, содержащих информацию как лингвистического, так и вспомогательного характера. Отличительной чертой БД является представление сведений о стилистической маркированности ЛСЕ, извлеченных из трех лексикографических источников и данных в сопоставлении. Описанная БД предназначена для автоматического поиска оценочной лексики и входит в состав разрабатываемой экспертной системы, предназначенной для лингвистической экспертизы конфликтных текстов.