LLM-预训练-数据集:wiki中文数据集【使用wikiextractor 提取wiki数据】

wikiextractor包链接地址:GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
安装wikiextractor: pip install wikiextractor
然后下载wiki语料库,下载地址: Index of /zhwiki/latest/
我下载的是:zhwiki-latest-pages-articles.xml.bz2
然后使用下面命令:

# 中文wiki下载地址
# https://dumps.wikimedia.org/zhwiki/
# pip install wikiextractor
# wikiextractor -o ./zhwiki-20230401 -b 100M --json --processes 4 ./zhwiki-20230401-pages-articles.xml.bz2
# -b 100M 其中100M是指单个文件允许的最大的占用硬盘的大小,如果设置的小,则会生成多个文件夹(AA、AB、AC...)
# ./zhwiki-20230401-b 指输出数据存放文件夹
# ./zhwiki-20230401-pages-articles.xml.bz2 指原始语料文件

然后就开始提取wiki数据了,如果上述命令执行错误,应


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部