语音识别技术之连续语音识别

1. 语言模型

P ( X 1 , X 2 , X 3 , X 4 ) = P ( X 1 ) ∗ P ( X 2 ∣ X 1 ) ∗ P ( X 3 ∣ X 1 , X 2 ) ∗ P ( X 4 ∣ X 1 , X 2 , X 3 ) P(X_1,X_2,X_3,X_4)=P(X_1)*P(X_2|X_1)*P(X_3|X_1,X_2)*P(X_4|X_1,X_2,X_3) P(X1,X2,X3,X4)=P(X1)P(X2X1)P(X3X1,X2)P(X4X1,X2,X3)
常见形式为N-Gram,每个词只与前N-1个词有关。
其他形式:最大熵、神经网络……

大词汇量:

  • 不能为每个单词训练HMM,改为用每个音素训练一个HMM

HMM复合:

  • 音素HMM按词典拼接成单词HMM
  • 单词HMM与语言模型复合成语言HMM
    在这里插入图片描述
    语音识别系统结构
    在这里插入图片描述
    1990-2010该框架没有变化,只是打了很多补丁…
  • 上下文有关模型
  • 区分式训练
  • 说话人适应
  • 二次打分

评价指标:词错误率
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部