46th International Philological Research Conference

Точность и полнота при выявлении словосочетаний статистическими мерами (корпус vs словари)

Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2017-03-16
17:00 - 17:20

Ключевые слова, аннотация

Компьютерная лингвистика, статистика, меры ассоциации, MI, t-score, log-likelihood, коэффициент Дайса.

Тезисы

В последнее время в связи с возросшей потребностью в автоматизированных системах большое внимание уделяется вопросу, связанному с изучением коллокаций — словосочетаний, которые обладают определенной воспроизводимостью в речи. Существуют различные статистические метрики для оценки сочетаемости слов [Evert 2004]. Иными словами, речь идет о статистической неслучайности словосочетаний, которая подвергается количественной оценке. Нами были проведены эксперименты по выявлению словосочетаний при помощи разных статистических мер (MI, t-score, коэффициент Дайса и коэффициент логарифмического правдоподобия) на материале Интернет-корпуса объемом в 156 млн словоупотреблений [Sharoff 2006]. Были отобраны 10 высокочастотных существительных по словарю [Ляшевская, Шаров 2009], исследовались атрибутивные и глагольные словосочетания. Оценивались точность и полнота выявления словосочетаний статистическими мерами, результаты сравнивались с данными словарей.
Библиография
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009.
Evert S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut fr maschinelle Sprachverarbeitung, University of Stuttgart, 2004, available at: http://purl.org/stefan.evert/PUB/Evert2004phd.pdf.
Sharoff S. Creating general-purpose corpora using automated search engine queries. Working Papers on the Web as Corpus. Edited by Marco Baroni and Silvia Bernardini, 2006, P. 63–98.