Использование полосы частостей фонем (букв) для оценки направленности письменного текста
            Александр Викторович Яковлев
        
        
        Докладчик
        
        
        доцент
Санкт-Петербургский государственный университет аэрокосмического приборостроения
    Санкт-Петербургский государственный университет аэрокосмического приборостроения
193
2017-03-16
16:40 -
        16:55
    Ключевые слова, аннотация
    Частости фонемы буквы направленность письменный текст.
Тезисы
    Недостатком существующих поисковых систем (Яндекс, Google и др.) и применяемых ими поисковых алгоритмов является их неспособность дифференцировать найденные тексты по их направленности. В частности, невозможно ограничить результат поиска текстами литературными, нормативно-правовыми, техническими, медицинскими, религиозными и т. п. 
Для выработки общего подхода к решению задачи дифференцировки текстов по их направленности был проведен эксперимент. Было взято 33 текста различной направленности: русская литература, нормативно-правовые тексты, религиозные тексты, суггестивные тексты. Для каждого из текстов были рассчитаны частости встречаемости букв русского алфавита и фонем.
Результат № 1. Статистический анализ полученных распределений показал, что в фонетической и знако-буквенной структуре текстов различной направленности имеются качественные различия. Они различимы, если ограничить диапазоны варьирования частостей фонем и букв для текстов каждой направленности верхней и нижней границами, которые можно представить в виде «полосы частостей».
Результат № 2. Имеются качественные отличия между рассматриваемыми группами текстов. Эти различия связаны с таким параметром, как «степень узости полосы частостей» для текста каждой направленности. По этому параметру тексты разной направленности располагаются в четко определенной последовательности.
Результат № 3. При использовании полосы частостей представление текстов в виде распределения фонем (в соответствии с международным фонетическим алфавитом) более предпочтительно.
Полученные результаты могут быть применены в алгоритмах полнотекстового поиска и машинного обучения при решении задачи дифференцировки результатов поисковых запросов по их направленности.
		Для выработки общего подхода к решению задачи дифференцировки текстов по их направленности был проведен эксперимент. Было взято 33 текста различной направленности: русская литература, нормативно-правовые тексты, религиозные тексты, суггестивные тексты. Для каждого из текстов были рассчитаны частости встречаемости букв русского алфавита и фонем.
Результат № 1. Статистический анализ полученных распределений показал, что в фонетической и знако-буквенной структуре текстов различной направленности имеются качественные различия. Они различимы, если ограничить диапазоны варьирования частостей фонем и букв для текстов каждой направленности верхней и нижней границами, которые можно представить в виде «полосы частостей».
Результат № 2. Имеются качественные отличия между рассматриваемыми группами текстов. Эти различия связаны с таким параметром, как «степень узости полосы частостей» для текста каждой направленности. По этому параметру тексты разной направленности располагаются в четко определенной последовательности.
Результат № 3. При использовании полосы частостей представление текстов в виде распределения фонем (в соответствии с международным фонетическим алфавитом) более предпочтительно.
Полученные результаты могут быть применены в алгоритмах полнотекстового поиска и машинного обучения при решении задачи дифференцировки результатов поисковых запросов по их направленности.