Лексико-грамматические особенности текстов специальных корпусов разной тематики
Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2014-03-14
16:00 -
16:20
Ключевые слова, аннотация
На
кафедре математической лингвистики ведутся работы по созданию специальных
корпусов текстов, на материале которых проводятся различные эксперименты по
автоматическому извлечению устойчивых сочетаний, лексико-грамматических
конструкций, ключевых слов, терминов и терминосочетаний и т.д. В центре нашего
внимания находятся корпуса текстов по гомеопатии, радиоэлектронике, шахматам, путешествиями некоторым другим темам. В докладе
будут подробно описаны лексико-грамматические особенности разрабатываемых
специальных корпусов текстов.
Тезисы
На
кафедре математической лингвистики ведутся работы по созданию специальных
корпусов текстов, на материале которых проводятся различные эксперименты по
автоматическому извлечению устойчивых сочетаний, лексико-грамматических
конструкций, ключевых слов, терминов и терминосочетаний и т.д. В центре нашего
внимания находятся корпуса текстов по гомеопатии,
радиоэлектронике, шахматам, путешествиям и некоторым другим темам. Используя
специализированное программное обеспечение (WordTabulator, TextAnalyst, NoSketch), мы провели
эксперименты по анализу n-грамм в разных корпусах
текстов. В текстах по радиоэлектронике преобладают именные лексико-грамматические
конструкции (обозначения основных понятий, явлений, процессов в
радиоэлектронике). Для текстов по шахматам характерна высокая формализованность
языка описания шахматной игры, шахматных позиций, этапов игры, задания иерархии
шахматных фигур, правил действия шахматных фигур. Классический формат описания
партий сводит к минимуму использование естественноязыковых средств, однако
комментарии к партии все же воплощены в текстовой форме. Специфика текстов по гомеопатии проявляется в
описаниях различных симптомов пациентов и характеристик действия
гомеопатических лекарственных средств. В текстах по гомеопатии доминируют
атрибутивные группы, обозначающие физические и психические особенности
пациентов того или иного конституционального типа. Корпус текстов о
путешествиях характеризуется содержательной неоднородностью (рассказы о
путешествиях, описания явлений природы, астрономических явлений, описание
психологического состояния путешественника и т.п.). Общими для данных текстов
являются следующие признаки: высокая доля имен собственных, доминирование
атрибутивных именных групп в описаниях явлений, количественных
пространственно-временных групп и глаголов движения в описании путешествий. В
докладе будут подробно описаны лексико-грамматические особенности
разрабатываемых специальных корпусов текстов.