46th International Philological Research Conference

Использование полосы частостей фонем (букв) для оценки направленности письменного текста

Александр Викторович Яковлев
Докладчик
доцент
Санкт-Петербургский государственный университет аэрокосмического приборостроения

193
2017-03-16
16:40 - 16:55

Ключевые слова, аннотация

Частости фонемы буквы направленность письменный текст.



Тезисы

Недостатком существующих поисковых систем (Яндекс, Google и др.) и применяемых ими поисковых алгоритмов является их неспособность дифференцировать найденные тексты по их направленности. В частности, невозможно ограничить результат поиска текстами литературными, нормативно-правовыми, техническими, медицинскими, религиозными и т. п.
Для выработки общего подхода к решению задачи дифференцировки текстов по их направленности был проведен эксперимент. Было взято 33 текста различной направленности: русская литература, нормативно-правовые тексты, религиозные тексты, суггестивные тексты. Для каждого из текстов были рассчитаны частости встречаемости букв русского алфавита и фонем.
Результат № 1. Статистический анализ полученных распределений показал, что в фонетической и знако-буквенной структуре текстов различной направленности имеются качественные различия. Они различимы, если ограничить диапазоны варьирования частостей фонем и букв для текстов каждой направленности верхней и нижней границами, которые можно представить в виде «полосы частостей».
Результат № 2. Имеются качественные отличия между рассматриваемыми группами текстов. Эти различия связаны с таким параметром, как «степень узости полосы частостей» для текста каждой направленности. По этому параметру тексты разной направленности располагаются в четко определенной последовательности.
Результат № 3. При использовании полосы частостей представление текстов в виде распределения фонем (в соответствии с международным фонетическим алфавитом) более предпочтительно.
Полученные результаты могут быть применены в алгоритмах полнотекстового поиска и машинного обучения при решении задачи дифференцировки результатов поисковых запросов по их направленности.