用HMM实现中文分词

1.jieba分词

    jieba分词的三种分词模式:

  • 精确模式,试图将句子最精确地切开,适合文本分析;
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    jieba分词的三种算法:

  • 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),根据给定的词典进行查词典操作, 生成几种可能的句子切分。jieba的作者在DAG中记录的是句子中某个词的开始位置,从0到n-1(n为句子的长度), 每个开始位置作为字典的键, value是个list, 其中保存了可能的词语的结束位置,(通过查字典得到词, 开始位置+词语的长度得到结束位置),注:所以可以联想到,jieba支持全模式分词,能把句子中所有的可以成词的词语都扫描出来
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,查找待分词句子中已经切分好的词语, 对该词语查找该词语出现的频率(次数/总数), 根据动态规划查找最大概率路径的方法, 对句子从右往左反向计算最大概率
  • 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
  • 基于Viterbi算法做词性标注;

  • 基于tf-idf和textrank模型抽取关键词;

2.HMM实现

第一部分是训练,有详细注释,所需要的训练语料:


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部