文本分类数据集_181个NLP教程,481个文本数据集,Colab一键直达,无需环境配置...
学习NLP不用愁了。
算力、环境配置谷歌提供,Colab套件对NLP全场景支持。
有了算力,还差教程,现在NLP学习合集大全套来了。

△超强NLP合集
网站名直译过来就是——超强NLP合集!
181个超全资源合集,各个类型全都有,总有一款适合你。

△资源概览
资源怎么使用?
光说不练假把式,既然是资源,就是让人用的,满满干货,无套路。
使用资源只需要三步:
1、打开网站,选择、搜索自己感兴趣的内容,比如搜索NLP领域最火的BERT。

△网站地址见文末
2、可以按描述内容选择自己感兴趣的模型,打开最后一列的Colab链接。
得益于谷歌的慷慨,无需担心环境配置,直接进去学习即可。
这里以第一个BERT搜索结果为例?。

△Transfer Learning with BERT
3、在进入Colab之后,和本地notebook文件使用方法是一样的,检查好配置之后,就可以按照目录进行学习,实时交互反馈结果。
这也是这份合集的意义,不再是干巴巴的说教,而是图文并茂可运行的实例,练起来!
总有一款模型适合你
当然,BERT只是其中一种类型,如果还没看够,下面是我们梳理的一些分类,可供选用。
1、按所用模型分类,可分为ANN、AxCell、BERT、CNN、GPT-2、LSTM等;
2、按任务类型分类,可分为分类、对话系统、词嵌入、语言模型、机器翻译、问答系统、情感分析等;
3、按所用框架分类,可分为PyTorch、TensorFlow、Keras等。
基本上涵盖了现在NLP发展的全景,不论是框架还是模型、任务,你都能在这里找到适合自己学习的对象。
此外,你也可以为抗击疫情出份力。

△COVID-19相关内容
可以BERT来了解疫情期间人们的情绪变化,内容丰富,目录清晰,上手即可操作。
比如说OpenAI刚更新的GPT模型,当然,受限于时间,现在只有GPT-2模型,但了解一下GPT本身也是好的。

△GPT-2模型
其中有一位国人作者,15 亿参数 GPT2 中文预训练模型,可以对GPT2本身有直观了解。

并且和谷歌drive一起使用,数据集存放也非常方便,全部流程只需点击两次。
模型本身已经被训练完毕,只需要加载训练使用即可,就这么简单,适合想直接使用的研究。
神奇的小网站
在作者发布之后,Reddit一片感谢贴,毕竟这么简单无套路的资源合集,可以说很良心了。

△讨论区图
而且这个搜集资源的小网站也是个好去处,481个数据集,从几M到上G,从CSV格式到JSON格式,应有尽有,可以马克一下作为资源站收藏。

△数据集
还有,他们还开发了一款名为RABBIT的文本分类器,可以实时对媒体报道进行分类,帮助我们更好分辨媒体报道的倾向性。

△文本分类器RABBIT
妈妈再也不用担心我被“FAKE NEWS”骗了。
⚠️使用教程和下载数据集都要大路畅通哟~
仅仅教程收藏是没用的,一定要自己上手试试哟~
参考链接:
https://www.reddit.com/r/MachineLearning/comments/gvsh51/p_181_nlp_colab_notebooks_found_here/
https://notebooks.quantumstat.com
往期推荐 钟南山团队携手腾讯研发新冠重症AI预测模型,登上Nature子刊本周优秀开源项目分享,人员检测和跟踪、OCR工具库、汉字字符特征提取工具 等8大开源项目干货 |分享17个机器学习的常用算法!机器学习必读TOP 100论文清单:高引用、分类全、覆盖面广丨GitHub 21.4k星本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
