gpt笔记

文章目录

  • 几种前沿NLP模型的对比
  • GPT-3: Language Models are Few-Shot Learners (Paper Explained)读后感
  • 微调模型
    • Finetune GPT-2
    • GPT-J
    • GPT-4chan

视频教学推荐阅读

  • GPT-4chan: This is the worst AI ever
  • GPT-3: Language Models are Few-Shot Learners (Paper Explained)

代码:

  • gpt-4chan代码
  • gpt-3论文

几种前沿NLP模型的对比

参考Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析可知,几种模型系列都是由Transformer架构改编而来,但相互之间最大的区别是架构是否有编码器、解码器。

参考独家 | 解析Tansformer模型—理解GPT-3, BERT和T5背后的模型(附链接)RNN的弱点是不能并行化(是吗?我记得能按batch并行的),很难处理冗长的文本序列,容易以往距离较远的上下文,且有梯度爆炸/消失的缺点。但transformer可以并行化,因而有能力训练大模型、大数据集。

Transformer有以下特点:

  1. 使用了位置编码,这使得网络结构不再需要使用RNN,从而能并行化训练。
  2. 使用注意力机制。帮助模型了解不同语言的单词之间的关联程度。
  3. 使用自注意力机制。帮助模型了解句子中单词根据其上下文拥有的具体含义。

GPT-3: Language Models are Few-Shot Learners (Paper Explained)读后感

GPT-3并没有使用特制的结构,它其实只是用了有大量参数的Transformer,加上了大量的训练数据即可。在指标表现上,模型参数越多、训练数据越多,训练效果也会越好。

在经过预训练后,GPT-3在不用fine-tune梯度更新的条件下,可以同时胜任zero-shot、one-shot、few-shot任务。在各种A->B的语言翻译任务中,无监督的GPT-3的指标能够对有监督训练模型的指标进行追赶。在语言理解问题中,few-shot BERT能够与基于fine-tune的模型不分上下(虽然仍然弱于SOTA)。

微调模型

Finetune GPT-2

阅读Guide to fine-tuning Text Generation models: GPT-2, GPT-Neo and T5,该文给出了代码片段,教学如何微调GPT-2和T2模型,使其用于情感分析任务。
项目的完整代码可见于Finetuning GPT-2 (for sentiment classification)、T5 finetuning,该代码基于hugginface实现的transformers提供的模型接口开发。

GPT-J

参考How you can use GPT-J,该项目由Eleuther AI公司训练,为了打破GPT-3的垄断而出现的。该项目是开源的、参数相对较少的(6B),效果却优于没有开源、参数更多(175B)的GPT-3。项目已开源上传至hugginface,详见EleutherAI/gpt-j-6B。

GPT-4chan

GPT-4chan是一个脏话回帖机器人,由著名的油管主播yk编写,在某reddit频道的大量帖子与回复上训练。可观看油管视频GPT-4chan: This is the worst AI ever进行了解。

可阅读gpt-4chan 运行笔记。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部