Извлечение терминов автоматическими методами (на материале финских текстов)
Александра Владимировна Коновалова
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
129
2015-04-08
14:50 -
15:10
Ключевые слова, аннотация
Доклад посвящён проблеме извлечения терминов автоматическими методами. Материалом
для исследования являются тексты разных функциональных стилей, написанные на
финском языке, которые доступны в системе Sketch Engine. Описываются особенности данных текстов, указываются грамматические и
лексические характеристики финского языка, релевантные для данного
исследования. Рассматриваются определения терминов и терминологических
словосочетаний, их классификация на материале финского языка, а также критерии
выделения терминов. Описываются программные средства и их применение на практике.
Тезисы
Доклад посвящен
определению термина в финском языке и выявлению его основных характеристик,
необходимых в качестве критериев для их автоматического отбора из текста.
С каждым годом число сфер научного знания увеличивается: науки развиваются, расширяя области своих исследований; более того, на пересечении старых наук образуются новые. Все это приводит к росту количества терминов и терминологических словосочетаний. Автоматическое извлечение терминов из корпусов текстов может быть востребовано в разных областях прикладной лингвистики, например, при создании словарей или систем машинного перевода.
Термин – единица специального языка, выражающая основные признаки научного понятия (см., например, [Герд 1991]). Основным свойством термина является закрепленность его значения в языке. Большая часть терминов является номинативным словом или словосочетанием, применяемым для наименования понятия. Существуют термины, употребляющиеся в нескольких научных дисциплинах.
Наше исследование проведено на материале финских корпусов текстов. Финский язык является агглютинативным языком, для него скорее характерно образование сложных слов, а не словосочетаний в качестве терминов. Контекст в финском языке имеет меньшее значение, чем, например, в русском языке. В слове, определенном как термин, необходимо выделять его части (отдельные корни) и определять, как они связаны по значению с учетом порядка следования корней в сложном слове. Например, если в начале сложного слова есть основа «sähkö» (электричество), то данный термин будет связан с электричеством; если основа будет стоять в конце сложного слова, то предыдущие основы будут ее атрибутами, т.е. слово будет означать какой-то вид электричества. При этом возникает сложность с определением того, какие сложные слова являются терминами. Не следует пренебрегать и тем фактом, что не все термины в финском языке являются сложными словами: упоминавшееся выше «sähkö» может выступать и в качестве отдельного слова и являться в этом случае термином само по себе.
В ходе работы нами были использованы корпусы, доступные в системе Sketch Engine. Для выявления терминов были описаны специальные правила, учитывающие модели их образования. Результатом работы является оценка успешности извлечения терминов из финских текстов с помощью критериев полноты, точности и F-меры.
С каждым годом число сфер научного знания увеличивается: науки развиваются, расширяя области своих исследований; более того, на пересечении старых наук образуются новые. Все это приводит к росту количества терминов и терминологических словосочетаний. Автоматическое извлечение терминов из корпусов текстов может быть востребовано в разных областях прикладной лингвистики, например, при создании словарей или систем машинного перевода.
Термин – единица специального языка, выражающая основные признаки научного понятия (см., например, [Герд 1991]). Основным свойством термина является закрепленность его значения в языке. Большая часть терминов является номинативным словом или словосочетанием, применяемым для наименования понятия. Существуют термины, употребляющиеся в нескольких научных дисциплинах.
Наше исследование проведено на материале финских корпусов текстов. Финский язык является агглютинативным языком, для него скорее характерно образование сложных слов, а не словосочетаний в качестве терминов. Контекст в финском языке имеет меньшее значение, чем, например, в русском языке. В слове, определенном как термин, необходимо выделять его части (отдельные корни) и определять, как они связаны по значению с учетом порядка следования корней в сложном слове. Например, если в начале сложного слова есть основа «sähkö» (электричество), то данный термин будет связан с электричеством; если основа будет стоять в конце сложного слова, то предыдущие основы будут ее атрибутами, т.е. слово будет означать какой-то вид электричества. При этом возникает сложность с определением того, какие сложные слова являются терминами. Не следует пренебрегать и тем фактом, что не все термины в финском языке являются сложными словами: упоминавшееся выше «sähkö» может выступать и в качестве отдельного слова и являться в этом случае термином само по себе.
В ходе работы нами были использованы корпусы, доступные в системе Sketch Engine. Для выявления терминов были описаны специальные правила, учитывающие модели их образования. Результатом работы является оценка успешности извлечения терминов из финских текстов с помощью критериев полноты, точности и F-меры.