XLVII Международная филологическая научная конференция

Расширение списка антонимических пар с использованием словарей синонимов и текстовых корпусов

Сергей Борисович Потемкин
Докладчик
научный сотрудник
Московский государственный университет им. М. В. Ломоносова

193
2018-03-23
16:00 - 16:20

Ключевые слова, аннотация

лексикография; словарь; антонимы; корпус; синонимы

Тезисы

В докладе приводятся результаты исследования по расширению списка антонимических пар за счет поиска синонимов к каждому члену антонимической пары. Исходный лексикографический материал включает словники традиционных словарей антонимов, а также словари синонимов русского языка. Все словники переведены в машиночитаемую форму, проведена, где это необходимо, лемматизация. Полученные новые пары вида АнтонимА – СинонимА – СинонимВ – АнтонимВ содержат существенный объем шума, т.е. пар, которые ни в каком смысле не могут считаться антонимичными. Фильтрация списка новых квазиантонимов выполнялась на материале текстовых корпусов. Использование Национального Корпуса Русского Языка и корпуса n-грам Google Books вызвало значительные затруднения в связи с тем, что НКРЯ не позволяет делать многочисленные запросы с одного IP-адреса в течение суток, а скачивание n-грам требует слишком большого времени и предъявляет существенные требования к объему памяти локального компьютера. В нашем распоряжении имеются текстовые корпуса произведений А.П.Чехова и корпус текстов журнала «Вопросы психологии» за 30 лет. На этих корпусах произведен поиск встречаемости пар квазиантонимов в каждом предложении корпуса. Определялось расстояние между квазиантонимами (число слов между ними, включая знаки препинания) и подсчитывалось общее количество вхождений пар в каждый корпус по-отдельности. Пары, встретившиеся большее число раз, предъявлялись для экспертной оценки в первую очередь. Те из них, которые получили одобрение эксперта, анализировались относительно контекста, а именно, в каких конструкциях появляются антонимические пары, напр., «не А, но В, А или В, скорее А, чем В» и др. Дальнейшие исследования могут быть расширены на другие корпуса и другие лексикографические источники.