44th International Philological Research Conference

Компьютерная лексикография как отдельная научная и учебная дисциплина

Софья Юльевна Семенова
Докладчик
старший научный сотрудник
Институт научной информации по общественным наукам РАН, РГГУ

206
2015-03-11
15:30 - 15:45

Ключевые слова, аннотация

При том, что компьютерная лексикография хронологически стала одним из первых направлений компьютерной лингвистики (разработки начались во 2-й половине 1940-х гг.), как самостоятельная дисциплина она продолжает оставаться лишь формирующейся, с не устоявшимися структурой и проблематикой. В докладе приводится вариант структуризации компьютерной лексикографии. Он лег в основу спецкурса, читаемого автором с 2006 г. студентам Ин-та лингвистики РГГУ. Спецкурс базируется, гл. обр., на материале отечественных проектов, связанных  с лексикографическим представлением русской общей и специальной лексики.

Тезисы

При том, что компьютерная лексикография хронологически стала одним из первых направлений компьютерной лингвистики (начало разработок — экспериментирование Р.Бузы на ЭВМ — датируется второй половиной 1940-х гг.), как самостоятельная дисциплина она продолжает оставаться лишь формирующейся, с не вполне устоявшимися  структурой и проблематикой.             Можно предложить такой вариант структурирования компьютерной лексикографии. Выделяющиеся в ней направления можно разделить на две группы.             Первую составляют направления, непосредственно нацеленные на получение электронных словарей:             - представление традиционных (бумажных) словарей на электронных носителях и связанные с этим технологические задачи;             - создание словарей, изначально предназначенных для электронной среды (мультимедийных, гипертекстовых);             - автоматическое (или автоматизированное) получение из полнотекстовых источников различных лексикографических «полуфабрикатов»: словников, лексико-статистических данных, конкордансов;             - создание терминографических систем различного назначения;             - разработка словарей для автоматической обработки текста;             - создание «свободных» словарей (по технологии вики).               Ко второй группе направлений, на наш взгляд, следует отнести ряд смежных прикладных задач, основывающихся на методах, близких к методам направлений первой группы:             -  автоматическое формирование указателей различных типов (как к словарям, так и к полнотекстовым документам);             -  разработку лингвистических информационных систем, подобных словарям;             - построение онтологий (направление в значительной мере пересекается с искусственным интеллектом).             Каждое из указанных направлений подразумевает внутреннюю структуризацию. Например, компьютерное представление традиционных словарей может делиться по типам словарей (представление толковых, диалектологических словарей и т.д.); параметром для разделения может быть и мера «вмешательства» в текст традиционного словаря с целью преобразования к облику базы данных (БД). Словари для автоматической обработки текста разделяются по этапам обработки (словари морфологической информации, моделей управления, семантические, переводные и др.). Среди информационных систем словарного типа прежде всего выделяются БД, содержащие семантическую, типологическую и фонетическую информацию.             Имеются и  разработки на стыке между выделенными типами. Например, добавление в традиционный словарь мультимедийных данных создает пограничную область между двумя первыми из указанных направлений.               Приведенный  вариант структуризации лег в основу спецкурса по компьютерной лексикографии, читаемого автором с 2006 г. студентам Института лингвистики РГГУ.  Спецкурс базируется, главным образом, на материале отечественных проектов, связанных  с лексикографическим представлением русской общей и специальной лексики. Основным источником сведений о конкретных системах являются публикации в сборниках Ежегодной конференции Диалог по компьютерной лингвистике и интеллектуальным технологиям.             Кроме характеризации и иллюстрирования самих направлений компьютерной лексикографии, учебный спецкурс включает некоторые, «учебные», сведения из области информатики – о моделях данных и основных типах СУБД,  о мультимедиа,  гипертексте, информационном поиске и нек. др. (причем рассмотрение строения БД вызывает значительные затруднения у студентов-лингвистов).  Рассмотрение терминографических  систем сопровождается характеризацией лингвистической терминологии как объекта словарного описания.             Учебный курс включает краткий экскурс в историю компьютерной лексикографии. Наряду с ранними зарубежными разработками (опыты Р. Бузы,  «Сокровищница французского языка» и нек. др.) рассматриваются и важные отечественные проекты – Машинный фонд русского языка, известные системы машинного перевода 1970 — 80-х гг. и их словари, терминологические системы. Затрагивается  взаимосвязь компьютерной лексикографии и корпусной лингвистики, а также влияние идеологии БД на традиционную лексикографию в современный период.                 .