信息检索(IR)笔记2: Rank: 基于概率的rank model

这是cs276 information retrieval & web search的笔记2,这里总结关于IR 系统中,rank的一些概率模型,BIM,BM25

文章目录

  • introduction
  • BIM( binary independent model)
    • Retrieval Status Value
    • estimate ci
  • BM25(Best Match 25)
    • approximation
    • saturation function
    • BM25
      • document length normalization
  • other feature
  • code 简单代码实现
  • resource
  • ref

introduction

IR系统的核心就是ranking,也就是非常直观的任务,对于user的一个query q q q, IR系统希望给每个检索出来的文档一个分数 score,按照score由高到低反馈给用户,而概率模型的核心就是对这个分数,用概率建模。

P ( R ∣ q , d ) P(R|q,d) P(Rq,d) 其中 R R R 是一个binary事件变量, R = 1 R=1 R=1 表示相关, R = 0 R=0 R=0 表示不相关。 q q q 表示user的查询,而 d d d 表示文档

由于我们只care的是rank(相对大小)而不是 P r o b Prob Prob 绝对大小。因此在概率模型中我们使用的metric通常是

O d d ( R ∣ q , d ) = P ( R = 1 ∣ q , d ) P ( R = 0 ∣ q , d ) Odd(R|q,d)=\frac{P(R=1|q,d)}{P(R=0|q,d)} Odd(Rq,d)=P(R=0q,d)P(R=1q,d)

下面介绍两种概率模型,BIM,BM25,分别基于 二项分布和泊松分布

BIM( binary independent model)

首先将document 向量化成 x = ( x 1 , … , x i , … , x T ) , T x = (x_1,\dots ,x_i,\dots ,x_T ),T x=(x1,,xi,,xT),T 表示 query 中 t e r m term term 的数量, x i = 1    ⟺    t e r m i x_i =1 \iff term_i xi=1termi 在document d d d

那么 score

O ( R ∣ q , d ) = O ( Q ∣ q , x ) = Pr ⁡ ( R = 1 ∣ q , x ) Pr ⁡ ( R = 0 ∣ q , x ) = Pr ⁡ ( R = 1 ∣ q ) Pr ⁡ ( x ∣ R = 1 , q ) Pr ⁡ ( x ∣ q ) Pr ⁡ ( R = 0 ∣ q ) Pr ⁡ ( x ∣ R = 0 , q ) Pr ⁡ ( x ∣ q ) ( b a y e s   r u l e ) = O ( R ∣ q ) Pr ⁡ ( x ∣ R = 1 , q ) Pr ⁡ ( x ∣ R = 0 , q ) \begin{aligned} O(R|q,d) &= O(Q|q,x)\\ &= \frac{\Pr(R=1|q,x)}{\Pr(R=0|q,x)}\\ &= \frac{\frac{\Pr(R=1|q)\Pr(x|R=1,q)}{\Pr(x|q)}}{\frac{\Pr(R=0|q)\Pr(x|R=0,q)}{\Pr(x|q)}} (bayes\ rule)\\ &=O(R|q)\frac{\Pr(x|R=1,q)}{\Pr(x|R=0,q)} \end{aligned} O(Rq,d)=O(Qq,x)=Pr(R=0q,x)Pr(R=1q,x)=Pr(xq)Pr(R=0q)Pr(xR=0,q)Pr(xq)Pr(R=1q)Pr(xR=1,q)(bayes rule)=O(Rq)Pr(xR=0,q)Pr(xR=1,q)

因为 q q q 对于每个document d d d 来说,都是一样的,可以看做一个常量,因此我们重点关心的是
Pr ⁡ ( x ∣ R = 1 , q ) Pr ⁡ ( x ∣ R = 0 , q ) (1) \frac{\Pr(x|R=1,q)}{\Pr(x|R=0,q)} \tag{1} Pr(xR=0,q)Pr(xR=1,q)(1)

binary independent model 的核心就是两个假设:

  1. 每个 t e r m i term_i termi 是一个二项分布
  2. t e r m i term_i termi 独立

基于独立性假设对于等式 ( 1 ) (1) (1), 我们有

s c o r e ( q , d ) = ∏ i = 1 T Pr ⁡ ( x i ∣ R = 1 , q ) Pr ⁡ ( x i ∣ R = 0 , q ) = ∏ x i = 1 Pr ⁡ ( x i = 1 ∣ R = 1 , q ) Pr ⁡ ( x i = 1 ∣ R = 0 , q ) ∏ x i = 0 Pr ⁡ ( x i = 0 ∣ R = 1 , q ) Pr ⁡ ( x i = 0 ∣ R = 0 , q ) l e t   p i = Pr ⁡ ( x i = 1 ∣ R = 1 ,


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部