NLP-词性标注-隐马尔可夫模型实现
NLP-词性标注-隐马尔可夫模型实现
- 一、词性标注
- 二、HMM词性标注构建
- 1.词性标注任务目标
- 2. 模型状态集合
- 3. 观察状态集合
- 4. 状态转移概率分布矩阵
- 5. 观测状态概率矩阵(发射概率)
- 6. 初始概率
- 7. 维特比求解
一、词性标注
词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。
二、HMM词性标注构建
1.词性标注任务目标
词性标注的任务是:给定词序列 W = w 1 , w 2 , … , w n W= w_1,w_2,…,w_n W=w1,w2,…,wn ,寻找词性标注序列 T = t 1 , t 2 , … , t n T=t_1,t_2,…,t_n T=t1,t2,…,tn,使得 P ( t ! , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_!,t_2,...,t_n|w_1,w_2,...,w_n) P(t!,t2,...,tn∣w1,w2,...,wn) 这个条件概率最大。
例如,词序列是:“他回来” 这句话。为了简化计算,假设只有词性:代词( r r r)、动词( v v v)、名词( n n n)和方位词( f f f)。这里:“他” 只可能是代词,“会” 可能是动词或者名词,而 “来” 可能是方位词或者动词。所以有4种可能的标注序列。
需要比较以下四个概率:
P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v∣他,会,来)
P ( r , n , v ∣ 他 , 会 , 来 ) P(r,n,v|他,会,来) P(r,n,v∣他,会,来)
P ( r , v , f ∣ 他 , 会 , 来 ) P(r,v,f|他,会,来) P(r,v,f∣他,会,来)
P ( r , n , f ∣ 他 , 会 , 来 ) P(r,n,f|他,会,来) P(r,n,f∣他,会,来)
发现 P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v∣他,会,来)是这4个概率中最大的,所以选择词性标注序列 ( r , v , v ) (r,v,v) (r,v,v)。
使用贝叶斯公式重新描述这个条件概率:
P ( t 1 , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n|w_1,w_2,...,w_n) P(t1,t2,...,tn∣w1,w2,...,wn) =
P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) / P ( w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) / P(w_1,w_2,...,w_n) P(t1,t2,...,tn)∗P(w1,w2,...,wn∣t1,t2,...,tn)/P(w1,w2,...,wn)
忽略掉分母,使用二元模型以及齐次性使 P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) P(t1,t2,...,tn)∗P(w1,w2,...,wn∣t1,t2,...,tn) 概率最大。
其中:
P ( t 1 , t 2 , . . . , t n ) = P ( t 1 ) p ( t 2 ∣ t 1 ) . . . p ( t n ∣ t n − 1 ) P(t_1,t_2,...,t_n) =P(t1)p(t_2| t_1)...p(t_{n}| t_{n-1}) P(t1,t2,...,tn)=P(t1)p(t2∣t1)...p(tn∣tn−1)
P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) = p ( w 1 ∣ t 1 ) . . . p ( w n ∣ t n ) P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) = p(w_1| t_1)...p(w_{n}| t_{n}) P(w1,w2,...,wn∣t1,t2,...,tn)=p(w1∣t1)...p(wn∣tn)
2. 模型状态集合
Q Q Q = { r r r, v v v, n n n, f f f}, N N N = 4
3. 观察状态集合
V V V = { 我 我 我, 会 会 会, 来 来 来 … } ,句子的集合。
4. 状态转移概率分布矩阵
在词性标注中就是状态序列 Q Q Q = { r r r, v v v, n n n, f f f} 的转移概率,这个状态概率矩阵是在训练阶段参数估计中得到。

5. 观测状态概率矩阵(发射概率)
在词性标注中发射概率指的是每一个字符对应状态序列 Q Q Q = { r r r, v v v, n n n, f f f} 中每一个状态的概率,通过对训练集每个字符对应状态的频数统计得到。

6. 初始概率
词性标注中初始状态概率指的是每一句话第一个字符的对应词性概率。
{ r r r:xxx, v v v: xxx, n n n: xxx, f f f: xxx}
7. 维特比求解

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
