К вопросу об электронном представлении комментированного авторского словаря (на материале словаря риторических терминов М. В. Ломоносова)
Андрей Константинович Филиппов
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Алексей Владимирович Добров
Докладчик
ассистент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-03-17
16:50 -
17:10
Ключевые слова, аннотация
Создание электронного
представления для авторских словарей, снабженных научным комментарием,
сопряжено со специфическими сложностями. К ресурсам подобного рода относится
создаваемый в ИЛИ РАН словарь «Риторика М. В. Ломоносова». На сегодняшний
день наиболее распространенным среди открытых стандартов электронного представления
и структурно-семантической разметки словарных данных является формат XDXF.
Вместе с тем для отражения структуры статьи риторического словаря
потребовалась существенная доработка этого формата, включая введение новых
элементов, а также расширение области применения старых.
Тезисы
Разработка электронного представления
для словарей различных типов относится к числу актуальных задач прикладной
лингвистики. Специфические сложности возникают при создании такого
представления для авторских словарей, снабженных обширным научным комментарием.
К ресурсам подобного рода относится словарь
«Риторика М. В. Ломоносова», создаваемый в ИЛИ РАН как часть полного
словаря Ломоносова.
Статья риторического словаря включает
лексикографическое описание (лемма, статистическая и грамматическая информация,
зона аналогов, семантическое описание, иллюстративный материал, реестр
употреблений, справочный отдел) и диахронический риторический контекст. Для
представления этой структуры в данном исследовании создается электронный формат
записи словарных статей. На сегодняшний день наиболее распространенным среди
открытых стандартов электронного представления и структурно-семантической
разметки словарных данных является формат XDXF. Данный формат используется в
большинстве открытых компьютерных программ для работы со словарями, позволяя
автоматически интегрировать размеченные статьи во множество различных
распространённых словарных платформ и, в частности, в платформу StarDict.
Вместе с тем, для отражения структуры статьи риторического словаря
потребовалась существенная доработка этого формата.
В документации XDXF подчеркивается противопоставление
визуальной разметки, обеспечивающей только внешнее графическое оформление
словарной статьи, и логической разметки, позволяющей отразить ее логическую
структуру. По своему функционалу логическая разметка является предпочтительной,
поскольку позволяет делать сложные выборки словарных статей или их частей по
различным параметрам. Словарь «Риторика Ломоносова», однако, обладает настолько
специфической структурой словарной статьи, что даже наиболее подробный вариант
логической разметки XDXF оказывается для него во многом лишь визуальным.
Адаптация XDXF
к структуре риторического словаря потребовала включения в формат существенного
количества новых элементов, а также расширения области применения старых. Так,
были добавлены элементы и атрибуты для отображения количества словоупотреблений
заголовочной единицы, значений грамматических категорий, языков аналогов
заголовочного слова, авторов и источников этих аналогов, зачёркнутого текста,
номеров страниц в ссылках, групп значений в зоне семантического описания,
словоформ, их употреблений в текстах, справочного отдела, источников и годов их
издания, цитат из различных сочинений различных эпох и группировок этих цитат
по какому-либо признаку. Разрабатываемые средства преобразования адаптированной
разметки в визуальный вариант XDXF позволяют представить созданный словарь практически
во всех распространенных словарных платформах.