Расширение списка антонимических пар с использованием словарей синонимов и текстовых корпусов
Сергей Борисович Потемкин
Докладчик
научный сотрудник
Московский государственный университет им. М. В. Ломоносова
Московский государственный университет им. М. В. Ломоносова
193
2018-03-23
16:00 -
16:20
Ключевые слова, аннотация
лексикография;
словарь; антонимы; корпус; синонимы
Тезисы
В докладе приводятся результаты исследования
по расширению списка антонимических пар за счет поиска синонимов к каждому
члену антонимической пары. Исходный лексикографический материал включает
словники традиционных словарей антонимов, а также словари синонимов русского
языка. Все
словники переведены в машиночитаемую форму, проведена, где это необходимо,
лемматизация. Полученные новые пары вида АнтонимА – СинонимА – СинонимВ –
АнтонимВ содержат существенный объем шума, т.е. пар, которые ни в каком смысле
не могут считаться антонимичными. Фильтрация списка новых квазиантонимов
выполнялась на материале текстовых корпусов. Использование Национального
Корпуса Русского Языка и корпуса n-грам Google Books вызвало значительные затруднения в связи с тем, что НКРЯ не позволяет
делать многочисленные запросы с одного IP-адреса в течение суток, а скачивание n-грам требует слишком
большого времени и предъявляет существенные требования к объему памяти
локального компьютера. В нашем распоряжении имеются текстовые корпуса
произведений А.П.Чехова и корпус текстов журнала «Вопросы психологии» за 30
лет. На этих корпусах произведен поиск встречаемости пар квазиантонимов в
каждом предложении корпуса. Определялось расстояние между квазиантонимами
(число слов между ними, включая знаки препинания) и подсчитывалось общее
количество вхождений пар в каждый корпус по-отдельности. Пары, встретившиеся
большее число раз, предъявлялись для экспертной оценки в первую очередь. Те из
них, которые получили одобрение эксперта, анализировались относительно
контекста, а именно, в каких конструкциях появляются антонимические пары,
напр., «не А, но В, А или В, скорее А,
чем В» и др. Дальнейшие исследования могут быть расширены на другие корпуса
и другие лексикографические источники.