【python,hanlp】pyhanlp分词如何加入自定义词典

step1:首先找到pyhanlp的安装位置

这里分两种情况:
1、安装位置在虚拟环境

E:\apps\Anaconda3\envs\dome\Lib\sitepackages\pyhanlp\static\data\dictionary\custom

envs文件夹下面存放的就是python编译器所有的虚拟环境列表,这里我使用的是dome虚拟环境,按照这种格式”虚拟环境->Lib->site-packages->pyhanlp->static->data->dictionary->custom“一步一步找到词典存放位置,可以将自定义词典放在此文件夹下面。比如下图的:金融词库.txt就是我的金融行业的自定义词典。加入词典之后,便可以进行下一步操作,这里我的自定义词典仅仅有词没有词性和词频。一词一行行与行之间没有空格,词顶行排列,行尾没有多余的空格符。
在这里插入图片描述
在这里插入图片描述
2、未使用虚拟环境
在这里插入图片描述
没有安装虚拟环境下,而在真实环境安装pyhanlp的小伙伴直接按照上图找到site-packages目录按照Lib->site-packages->pyhanlp->static->data->dictionary->custom的路径进行和虚拟环境下进行一样的操作即可。

step2:配置自定义字典路径

1、使用虚拟环境
在这里插入图片描述
2、未使用虚拟环境
仅仅是路径不同,Anaconda3->Lib->site-packages->pyhanlp->static下找到该文件,打开进行如下图修改:
在这里插入图片描述
其中字典的先后顺序代表的是优先级。

step3:删除”CustomDictionary.txt.bin”文件,运行分词程序重新生成该文件,即可实现使用自定义字典进行分词的功能。

在这里插入图片描述
参考:https://blog.csdn.net/lzbmc/article/details/90083561


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部