Точность и полнота при выявлении словосочетаний статистическими мерами (корпус vs словари)
Maria Vladimirovna Khokhlova
Докладчик
доцент
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2017-03-16
17:00 -
17:20
Ключевые слова, аннотация
Компьютерная лингвистика, статистика, меры ассоциации, MI, t-score, log-likelihood, коэффициент Дайса.
Тезисы
В последнее время в связи с возросшей потребностью в автоматизированных системах большое внимание уделяется вопросу, связанному с изучением коллокаций — словосочетаний, которые обладают определенной воспроизводимостью в речи. Существуют различные статистические метрики для оценки сочетаемости слов [Evert 2004]. Иными словами, речь идет о статистической неслучайности словосочетаний, которая подвергается количественной оценке. Нами были проведены эксперименты по выявлению словосочетаний при помощи разных статистических мер (MI, t-score, коэффициент Дайса и коэффициент логарифмического правдоподобия) на материале Интернет-корпуса объемом в 156 млн словоупотреблений [Sharoff 2006]. Были отобраны 10 высокочастотных существительных по словарю [Ляшевская, Шаров 2009], исследовались атрибутивные и глагольные словосочетания. Оценивались точность и полнота выявления словосочетаний статистическими мерами, результаты сравнивались с данными словарей.
Библиография
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009.
Evert S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut fr maschinelle Sprachverarbeitung, University of Stuttgart, 2004, available at: http://purl.org/stefan.evert/PUB/Evert2004phd.pdf.
Sharoff S. Creating general-purpose corpora using automated search engine queries. Working Papers on the Web as Corpus. Edited by Marco Baroni and Silvia Bernardini, 2006, P. 63–98.
Библиография
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009.
Evert S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut fr maschinelle Sprachverarbeitung, University of Stuttgart, 2004, available at: http://purl.org/stefan.evert/PUB/Evert2004phd.pdf.
Sharoff S. Creating general-purpose corpora using automated search engine queries. Working Papers on the Web as Corpus. Edited by Marco Baroni and Silvia Bernardini, 2006, P. 63–98.