Компьютерная лексикография как отдельная научная и учебная дисциплина

Софья Юльевна Семенова

Докладчик

старший научный сотрудник
Институт научной информации по общественным наукам РАН, РГГУ

206
2015-03-11

15:30 - 15:45

Ключевые слова, аннотация

При том, что компьютерная лексикография хронологически стала одним из первых направлений компьютерной лингвистики (разработки начались во 2-й половине 1940-х гг.), как самостоятельная дисциплина она продолжает оставаться лишь формирующейся, с не устоявшимися структурой и проблематикой. В докладе приводится вариант структуризации компьютерной лексикографии. Он лег в основу спецкурса, читаемого автором с 2006 г. студентам Ин-та лингвистики РГГУ. Спецкурс базируется, гл. обр., на материале отечественных проектов, связанных с лексикографическим представлением русской общей и специальной лексики.

Тезисы

При том, что компьютерная лексикография хронологически стала одним из первых направлений компьютерной лингвистики (начало разработок — экспериментирование Р.Бузы на ЭВМ — датируется второй половиной 1940-х гг.), как самостоятельная дисциплина она продолжает оставаться лишь формирующейся, с не вполне устоявшимися структурой и проблематикой. Можно предложить такой вариант структурирования компьютерной лексикографии. Выделяющиеся в ней направления можно разделить на две группы. Первую составляют направления, непосредственно нацеленные на получение электронных словарей: - представление традиционных (бумажных) словарей на электронных носителях и связанные с этим технологические задачи; - создание словарей, изначально предназначенных для электронной среды (мультимедийных, гипертекстовых); - автоматическое (или автоматизированное) получение из полнотекстовых источников различных лексикографических «полуфабрикатов»: словников, лексико-статистических данных, конкордансов; - создание терминографических систем различного назначения; - разработка словарей для автоматической обработки текста; - создание «свободных» словарей (по технологии вики). Ко второй группе направлений, на наш взгляд, следует отнести ряд смежных прикладных задач, основывающихся на методах, близких к методам направлений первой группы: - автоматическое формирование указателей различных типов (как к словарям, так и к полнотекстовым документам); - разработку лингвистических информационных систем, подобных словарям; - построение онтологий (направление в значительной мере пересекается с искусственным интеллектом). Каждое из указанных направлений подразумевает внутреннюю структуризацию. Например, компьютерное представление традиционных словарей может делиться по типам словарей (представление толковых, диалектологических словарей и т.д.); параметром для разделения может быть и мера «вмешательства» в текст традиционного словаря с целью преобразования к облику базы данных (БД). Словари для автоматической обработки текста разделяются по этапам обработки (словари морфологической информации, моделей управления, семантические, переводные и др.). Среди информационных систем словарного типа прежде всего выделяются БД, содержащие семантическую, типологическую и фонетическую информацию. Имеются и разработки на стыке между выделенными типами. Например, добавление в традиционный словарь мультимедийных данных создает пограничную область между двумя первыми из указанных направлений. Приведенный вариант структуризации лег в основу спецкурса по компьютерной лексикографии, читаемого автором с 2006 г. студентам Института лингвистики РГГУ. Спецкурс базируется, главным образом, на материале отечественных проектов, связанных с лексикографическим представлением русской общей и специальной лексики. Основным источником сведений о конкретных системах являются публикации в сборниках Ежегодной конференции Диалог по компьютерной лингвистике и интеллектуальным технологиям. Кроме характеризации и иллюстрирования самих направлений компьютерной лексикографии, учебный спецкурс включает некоторые, «учебные», сведения из области информатики – о моделях данных и основных типах СУБД, о мультимедиа, гипертексте, информационном поиске и нек. др. (причем рассмотрение строения БД вызывает значительные затруднения у студентов-лингвистов). Рассмотрение терминографических систем сопровождается характеризацией лингвистической терминологии как объекта словарного описания. Учебный курс включает краткий экскурс в историю компьютерной лексикографии. Наряду с ранними зарубежными разработками (опыты Р. Бузы, «Сокровищница французского языка» и нек. др.) рассматриваются и важные отечественные проекты – Машинный фонд русского языка, известные системы машинного перевода 1970 — 80-х гг. и их словари, терминологические системы. Затрагивается взаимосвязь компьютерной лексикографии и корпусной лингвистики, а также влияние идеологии БД на традиционную лексикографию в современный период. .

44th International Philological Research Conference

Компьютерная лексикография как отдельная научная и учебная дисциплина

Ключевые слова, аннотация

Тезисы