Компьютерная лексикография как отдельная научная и учебная дисциплина
Софья Юльевна Семенова
Докладчик
старший научный сотрудник
Институт научной информации по общественным наукам РАН, РГГУ
Институт научной информации по общественным наукам РАН, РГГУ
206
2015-03-11
15:30 -
15:45
Ключевые слова, аннотация
При том, что компьютерная лексикография хронологически стала
одним из первых направлений компьютерной лингвистики (разработки начались во 2-й
половине 1940-х гг.), как самостоятельная дисциплина она продолжает оставаться лишь
формирующейся, с не устоявшимися структурой и проблематикой. В докладе приводится
вариант структуризации компьютерной лексикографии. Он лег в основу спецкурса,
читаемого автором с 2006 г.
студентам Ин-та лингвистики РГГУ. Спецкурс
базируется, гл. обр., на материале отечественных проектов, связанных с лексикографическим представлением русской
общей и специальной лексики.
Тезисы
При том, что компьютерная лексикография хронологически стала
одним из первых направлений компьютерной лингвистики (начало разработок —
экспериментирование Р.Бузы на ЭВМ — датируется второй половиной 1940-х гг.),
как самостоятельная дисциплина она продолжает оставаться лишь формирующейся, с
не вполне устоявшимися структурой и
проблематикой.
Можно
предложить такой вариант структурирования компьютерной лексикографии.
Выделяющиеся в ней направления можно разделить на две группы.
Первую
составляют направления, непосредственно нацеленные на получение электронных
словарей:
-
представление традиционных (бумажных) словарей на электронных носителях и
связанные с этим технологические задачи;
- создание
словарей, изначально предназначенных для электронной среды (мультимедийных,
гипертекстовых);
-
автоматическое (или автоматизированное) получение из полнотекстовых источников различных
лексикографических «полуфабрикатов»: словников, лексико-статистических данных,
конкордансов;
- создание
терминографических систем различного назначения;
-
разработка словарей для автоматической обработки текста;
- создание «свободных»
словарей (по технологии вики).
Ко второй группе направлений, на наш взгляд,
следует отнести ряд смежных прикладных задач, основывающихся на методах, близких
к методам направлений первой группы:
- автоматическое формирование указателей
различных типов (как к словарям, так и к полнотекстовым документам);
- разработку лингвистических информационных
систем, подобных словарям;
-
построение онтологий (направление в значительной мере пересекается с
искусственным интеллектом).
Каждое из
указанных направлений подразумевает внутреннюю структуризацию. Например,
компьютерное представление традиционных словарей может делиться по типам
словарей (представление толковых, диалектологических словарей и т.д.); параметром
для разделения может быть и мера «вмешательства» в текст традиционного словаря
с целью преобразования к облику базы данных (БД). Словари для автоматической
обработки текста разделяются по этапам обработки (словари морфологической
информации, моделей управления, семантические, переводные и др.). Среди
информационных систем словарного типа прежде всего выделяются БД, содержащие
семантическую, типологическую и фонетическую информацию.
Имеются и разработки на стыке между выделенными типами.
Например, добавление в традиционный словарь мультимедийных данных создает
пограничную область между двумя первыми из указанных направлений.
Приведенный
вариант структуризации лег в основу
спецкурса по компьютерной лексикографии, читаемого автором с 2006 г. студентам Института
лингвистики РГГУ. Спецкурс базируется,
главным образом, на материале отечественных проектов, связанных с лексикографическим представлением русской
общей и специальной лексики. Основным источником сведений о конкретных системах
являются публикации в сборниках Ежегодной конференции Диалог по компьютерной
лингвистике и интеллектуальным технологиям.
Кроме
характеризации и иллюстрирования самих направлений компьютерной лексикографии,
учебный спецкурс включает некоторые, «учебные», сведения из области информатики
– о моделях данных и основных типах СУБД, о мультимедиа, гипертексте, информационном поиске и нек. др.
(причем рассмотрение строения БД вызывает значительные затруднения у студентов-лингвистов).
Рассмотрение терминографических систем сопровождается характеризацией
лингвистической терминологии как объекта словарного описания.
Учебный
курс включает краткий экскурс в историю компьютерной лексикографии. Наряду с
ранними зарубежными разработками (опыты Р. Бузы, «Сокровищница французского языка» и нек. др.)
рассматриваются и важные отечественные проекты – Машинный фонд русского языка,
известные системы машинного перевода 1970 — 80-х гг. и их словари, терминологические
системы. Затрагивается взаимосвязь
компьютерной лексикографии и корпусной лингвистики, а также влияние идеологии БД
на традиционную лексикографию в современный период.
.