语料库训练Word2Vec模型 详细实践

#环境:Windows+python+opencc+jieba+gensim

下载语料库

https://dumps.wikimedia.org/zhwiki/20191120/

下载后不解压

提取语料

使用WikiExtractor提取语料库的主要内容

WikiExtractor.py

地址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py

将py文件和语料库都放在同一目录下,之后文件也是,避免出错。

文件目录下打开命令行:

python WikiExtractor.py -b 500M -o zhwiki 语料库文件名.xml.bz2
# -b 500M 提取内容文件一个最大500M
# -o 输出文件名

 

繁体转简体

使用opencc

下载地址:

链接:https://pan.baidu.com/s/1KtJ60ByMP3IhSyHsEuL9oA 
提取码:py5a 

下载后将文件的中的bin路径加入Windows环境变量
在文件目录中打开cmd,运行如下命令,将需要转换的文件中繁体转为简体

.\opencc -i 需转换文件文件名 -o 转换后文件名 -c 你电脑中opencc-1.0.4\share\opencc\t2s.json路径
#例如.\opencc -i wiki_00 -o zh_wiki_00 -c C:\Users\MAIBENBEN\opencc-1.0.4\share\op


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部