Автоматическое выделение количественных конструкций в русскоязычных научно-популярных текстах
Якуб Константинович Харабет
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2015-04-07
16:50 -
17:10
Ключевые слова, аннотация
Целью
исследования является автоматическое
выделение лексико-грамматических
конструкций с количественным значением.
Материалом исследования являются
конструкции, использующие меры длины
в системе СИ. Для их
анализа сформирован корпус научно-популярных
текстов объемом около 100 тыс. словоупотреблений. Использовался
морфосинтаксический анализатор
Томита-парсер. Получены описания конструкций с
признаками «количество», «единица
измерения», «параметр», «объект».
Установлено,
что конструкции с единицами длины служат
для описания физических размеров
отдельных объектов и расстояния между
объектами.
Тезисы
Целью исследования является
автоматическое выделение особого класса
лексико-грамматических конструкций, а
именно количественных конструкций,
которые характеризуют научные и
научно-популярные тексты. В текстах
данного типа наряду с конструкциями,
включающими модификаторы «много»,
«мало», «значительно», часто встречаются
контексты, содержащие выражение
количественных показателей с указанием
точных величин («находиться в 5 км от
Х», «полоса шириной 30 мм» и т. д.). Материалом исследования являются все
конструкции, использующие меры длины
в системе СИ (нм, мкм, мм, м, км).
В
ходе работы был сформирован корпус
научно-популярных текстов общим объемом
около 100 тыс. словоупотреблений.
Корпус включает в себя статьи,
опубликованные в различных журналах
(«Наука и жизнь», «Наука из первых рук»,
«Природа», «Троицкий вариант»). Особое
внимание уделялось текстам из
естественнонаучных областей (биология,
физика, космология).
Для
автоматического выделения конструкций
нами использовался морфосинтаксический
анализатор Томита-парсер
(https://tech.yandex.ru/tomita/). В Томита-парсере были
составлены машиночитаемые словарь и
грамматика, описывающие конструкции с
использованием единиц длины. На основе
подаваемых на вход словарей и грамматик
Томита-парсер выполняет семантическую
интерпретацию найденных в корпусе
конструкций и выделяет следующие
сущности: «количество», «единица
измерения», «параметр», «объект».
Примеры
автоматической обработки конструкций
приведены ниже:
(1)
контекст: …"застежка",
шириной около 100 нм... количество:
100
единицы:
нм
параметр:
ширина
объект:
застежка; (2)
контекст: …α-спираль
определенной длины около 40 нм...
количество:
40
единицы:
нм
параметр:
длина
объект:
α-спираль; (3)
контекст: …комплекс
(его сечение — порядка 150– 200 нм…
количество:
150
– 200
единицы:
нм
параметр:
сечение
объект:
комплекс
Опытным
путем удалось выяснить, что конструкции,
использующие единицы длины, служат для
описания ситуаций двух типов. В конструкции
указываются 1) физические размеры
отдельных объектов или 2) расстояние
между двумя объектами.
В
первом случае используются такие
параметры, как «сечение», «толщина». Во
втором — эксплицитные указания двух
объектов в выражениях вида «от А до Б»,
«между А и Б», а также явное упоминание
таких характеристик, как «расстояние»,
«удаление» и т. п. При этом данные
группы частично пересекаются. Существуют
пограничные случаи конструкций вида
«зазор шириной...» Имеется также
значительная часть примеров, которые
можно классифицировать двояко («глубина
дна» как характеристика объекта «дно»
и как расстояние до поверхности).