XLIII Международная филологическая научная конференция

Морфологический анализ текстов специальных корпусов

Ольга Александровна Митрофанова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2014-03-14
15:35 - 15:55

Ключевые слова, аннотация

На кафедре математической лингвистики ведутся работы по созданию специальных корпусов текстов, на материале которых проводятся различные эксперименты. Доклад посвящен анализу результатов морфологической разметки и разрешения морфологической неоднозначности в корпусах, и прежде всего, оценке качества морфологического анализа текстов с помощью инструментов MyStem, Pymorphy2, модуля морфоанализа NLTK, TreeTagger.


Тезисы

На кафедре математической лингвистики ведутся работы по созданию специальных корпусов текстов, на материале которых проводятся различные эксперименты по автоматическому извлечению устойчивых сочетаний, лексико-грамматических конструкций, ключевых слов, терминов и терминосочетаний и т.д. В центре нашего внимания находятся корпуса текстов по гомеопатии, радиоэлектронике, шахматам, путешествиям и некоторым другим темам. Фактически, все методы корпусного анализа текстов базируются на морфологически размеченных корпусах. Данный доклад посвящен анализу результатов морфологической разметки и разрешения морфологической неоднозначности в корпусах, и прежде всего, оценке качества морфологического анализа текстов с помощью инструментов MyStem, Pymorphy2, модуля морфоанализа NLTK, TreeTagger и некоторых других. Выбор данных инструментов объясняется их доступностью, возможностью интеграции в многофункциональные модули автоматической обработки текстов, высоким качеством морфологического разбора. Рассматривается эффективность/неэффективность подхода к морфологическому анализу на базе словаря основ в противопоставлении статистическим методам. В докладе обсуждаются эксперименты по разрешению морфологической неоднозначности на основе а) статистических данных и б) контекстных правил. Дается оценка наилучших параметров разрешения морфологической неоднозначности в корпусах текстов.