44th International Philological Research Conference

Критерий структурной близости

Андрей Михайлович Попов
Докладчик
аспирант
Санкт-Петербургский государственный университет

193
2015-03-12
15:40 - 16:00

Ключевые слова, аннотация

Основной задачей данного исследования является попытка определить, какое количество информации о (синтаксической) структуре текста содержится в самом тексте, может ли эта информация быть автоматически извлечена и впоследствии использована для различных задач, использующих информацию о связях между словами. Наша гипотеза формулируется следующим образом: статистическое распределение сочетаний слов, между которыми возможна синтаксическая связь, отличается от статистического распределения тех сочетаний слов, между которыми синтаксическая связь невозможна.

Тезисы

В настоящее время в прикладной лингвистике всё активнее применяются различные подходы к решению прикладных задач, опирающиеся на связи между словами. Наиболее простой и эффективный с точки зрения трудозатрат подход к тексту, как к «мешку слов» (англ. bag of words), всё чаще дополняется различными методами структурированного представления текста в виде графа. Наиболее устоявшийся способ представления текста в виде графа – это синтаксическое или семантическое дерево, в узлах которого расположены слова, а дуги помечены специальными отношениями. Такое дерево обычно получается в ходе синтаксического анализа.
На данный момент существуют два вполне устоявшихся способа получить синтаксическое дерево предложения – при помощи анализатора, работающего на правилах или на вероятностной модели. Как показывает практика, разработка грамматики для анализатора на правилах или синтаксически размеченного корпуса для статистического анализатора – очень трудоёмкий процесс. В связи с этим, в последнее время, получило развитие такое направление, как "индукция грамматик" без учителя. В рамках такого подхода правила, использующиеся для синтаксического анализа, извлекаются из тренировочного корпуса морфологически размеченных текстов. Однако качество получаемых таким способом грамматик на данный момент не позволяет производить синтаксический анализ, с точностью, сопоставимой см точностью современных статистических анализаторов.
Нами была сформулирована следующая гипотеза: статистическое распределение сочетаний слов, между которыми возможна синтаксическая связь отличается от статистического распределения тех сочетаний слов, между которыми синтаксическая связь невозможна. Таким образом, главной задачей данного исследования является экспериментальное подтверждение этой гипотезы и, в случае её подтверждения, определения критерия разделения двух видов сочетаний слов – в которых синтаксическая связь возможна (назовём их продуктивными) и не возможна (назовём их непродуктивными). Данный критерий получил условное название критерий структурной близости.
В качестве материала для статистического исследования был использован синтаксически размеченный корпус русского языка СинТагРус, объёмом более полумиллиона словоформ, входящий в состав Национального корпуса русского языка. Было построено распределение продуктивных и непродуктивных сочетаний морфологических тегов, которое подтверждает нашу гипотезу. Продуктивные сочетания отклоняются от нормали в сторону более высокой частотности в смежной позиции, в то время как непродуктивные сочетания, наоборот, в смежной позиции показывают снижение частотности. Исходя из полученных данных был сформулирован критерий структурной близости. Для проверки практической применимости критерия для разделения сочетаний на продуктивные и непродуктивные были построены графики зависимости качества (полнота и точность) от порогового значения коэффициента. Среднее качество определения продуктивных связей составило около 70%.
В рамках исследования удалось подтвердить гипотезу о корреляции распределения продуктивных и непродуктивных сочетаний в зависимости от расстояния между словами. Предложенный критерий структурной близости слов позволяет на специально не подготовленном для этой задачи корпусе получить поверхностную оценку эффективности критерия в 70%. Предполагается, что будет наблюдаться положительная корреляция эффективности критерия от объёма тренировочного корпуса. Это позволит увеличить точность разграничения продуктивных и непродуктивных сочетаний до уровня, достаточного для прикладного применения в задачах синтаксического  анализа.