语料库训练Word2Vec模型 详细实践
#环境:Windows+python+opencc+jieba+gensim
下载语料库
https://dumps.wikimedia.org/zhwiki/20191120/
下载后不解压
提取语料
使用WikiExtractor提取语料库的主要内容
WikiExtractor.py
地址https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py
将py文件和语料库都放在同一目录下,之后文件也是,避免出错。
文件目录下打开命令行:
python WikiExtractor.py -b 500M -o zhwiki 语料库文件名.xml.bz2
# -b 500M 提取内容文件一个最大500M
# -o 输出文件名
繁体转简体
使用opencc
下载地址:
链接:https://pan.baidu.com/s/1KtJ60ByMP3IhSyHsEuL9oA
提取码:py5a
下载后将文件的中的bin路径加入Windows环境变量
在文件目录中打开cmd,运行如下命令,将需要转换的文件中繁体转为简体
.\opencc -i 需转换文件文件名 -o 转换后文件名 -c 你电脑中opencc-1.0.4\share\opencc\t2s.json路径
#例如.\opencc -i wiki_00 -o zh_wiki_00 -c C:\Users\MAIBENBEN\opencc-1.0.4\share\op
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
