Автоматическое выделение количественных конструкций в русскоязычных научно-популярных текстах

Якуб Константинович Харабет

Докладчик

магистрант 2 курса
Санкт-Петербургский государственный университет

129
2015-04-07

16:50 - 17:10

Ключевые слова, аннотация

Целью исследования является автоматическое выделение лексико-грамматических конструкций с количественным значением. Материалом исследования являются конструкции, использующие меры длины в системе СИ. Для их анализа сформирован корпус научно-популярных текстов объемом около 100 тыс. словоупотреблений. Использовался морфосинтаксический анализатор Томита-парсер. Получены описания конструкций с признаками «количество», «единица измерения», «параметр», «объект». Установлено, что конструкции с единицами длины служат для описания физических размеров отдельных объектов и расстояния между объектами.

Тезисы

Целью исследования является автоматическое выделение особого класса лексико-грамматических конструкций, а именно количественных конструкций, которые характеризуют научные и научно-популярные тексты. В текстах данного типа наряду с конструкциями, включающими модификаторы «много», «мало», «значительно», часто встречаются контексты, содержащие выражение количественных показателей с указанием точных величин («находиться в 5 км от Х», «полоса шириной 30 мм» и т. д.). Материалом исследования являются все конструкции, использующие меры длины в системе СИ (нм, мкм, мм, м, км). В ходе работы был сформирован корпус научно-популярных текстов общим объемом около 100 тыс. словоупотреблений. Корпус включает в себя статьи, опубликованные в различных журналах («Наука и жизнь», «Наука из первых рук», «Природа», «Троицкий вариант»). Особое внимание уделялось текстам из естественнонаучных областей (биология, физика, космология). Для автоматического выделения конструкций нами использовался морфосинтаксический анализатор Томита-парсер (https://tech.yandex.ru/tomita/). В Томита-парсере были составлены машиночитаемые словарь и грамматика, описывающие конструкции с использованием единиц длины. На основе подаваемых на вход словарей и грамматик Томита-парсер выполняет семантическую интерпретацию найденных в корпусе конструкций и выделяет следующие сущности: «количество», «единица измерения», «параметр», «объект». Примеры автоматической обработки конструкций приведены ниже: (1) контекст: …"застежка", шириной около 100 нм... количество: 100 единицы: нм параметр: ширина объект: застежка; (2) контекст: …α-спираль определенной длины около 40 нм... количество: 40 единицы: нм параметр: длина объект: α-спираль; (3) контекст: …комплекс (его сечение — порядка 150– 200 нм… количество: 150 – 200 единицы: нм параметр: сечение объект: комплекс Опытным путем удалось выяснить, что конструкции, использующие единицы длины, служат для описания ситуаций двух типов. В конструкции указываются 1) физические размеры отдельных объектов или 2) расстояние между двумя объектами. В первом случае используются такие параметры, как «сечение», «толщина». Во втором — эксплицитные указания двух объектов в выражениях вида «от А до Б», «между А и Б», а также явное упоминание таких характеристик, как «расстояние», «удаление» и т. п. При этом данные группы частично пересекаются. Существуют пограничные случаи конструкций вида «зазор шириной...» Имеется также значительная часть примеров, которые можно классифицировать двояко («глубина дна» как характеристика объекта «дно» и как расстояние до поверхности).

XVIII Международная конференция студентов-филологов

Автоматическое выделение количественных конструкций в русскоязычных научно-популярных текстах

Ключевые слова, аннотация

Тезисы