NLP之【点互信息PMI】——衡量两变量之间的相关性

点互信息PMI——衡量两变量之间的相关性

  • 绪论
  • 一、PMI的基本概念
  • 二、调用Python nltk来计算两个词的PMI
  • 三、根据词语的共现频次表自定义PMI函数计算
  • 附录:nltk.download('omw-1.4')下载'omw-1.4'文件

绪论

在自然语言处理中, 想要探讨两个字之间,是否存在某种关系,例如:某些字比较容易一起出现, 这些字一起出现时,可能带有某种讯息。

例如,在新闻报导中,有New 、York,这两个字一起出现,可以代表一个地名New York,所以当出现了New这个字, 则有可能出现York,这可以用Pointwise Mutual Information(PMI)来计算New 、York一起出现的相关性。

一、PMI的基本概念

点互信息(Pointwise Mutual Information,PMI): 在数据挖掘或者信息检索的相关资料里,经常会 利用PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性<


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部