gpt笔记

2023-11-24 04:37:44

文章目录

几种前沿NLP模型的对比
GPT-3: Language Models are Few-Shot Learners (Paper Explained)读后感
微调模型
- Finetune GPT-2
- GPT-J
- GPT-4chan

视频教学推荐阅读

GPT-4chan: This is the worst AI ever
GPT-3: Language Models are Few-Shot Learners (Paper Explained)

代码：

gpt-4chan代码
gpt-3论文

几种前沿NLP模型的对比

参考Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析可知，几种模型系列都是由Transformer架构改编而来，但相互之间最大的区别是架构是否有编码器、解码器。

参考独家 | 解析Tansformer模型—理解GPT-3, BERT和T5背后的模型（附链接）RNN的弱点是不能并行化（是吗？我记得能按batch并行的），很难处理冗长的文本序列，容易以往距离较远的上下文，且有梯度爆炸/消失的缺点。但transformer可以并行化，因而有能力训练大模型、大数据集。

Transformer有以下特点：

使用了位置编码，这使得网络结构不再需要使用RNN，从而能并行化训练。
使用注意力机制。帮助模型了解不同语言的单词之间的关联程度。
使用自注意力机制。帮助模型了解句子中单词根据其上下文拥有的具体含义。

GPT-3: Language Models are Few-Shot Learners (Paper Explained)读后感

GPT-3并没有使用特制的结构，它其实只是用了有大量参数的Transformer，加上了大量的训练数据即可。在指标表现上，模型参数越多、训练数据越多，训练效果也会越好。

在经过预训练后，GPT-3在不用fine-tune梯度更新的条件下，可以同时胜任zero-shot、one-shot、few-shot任务。在各种A->B的语言翻译任务中，无监督的GPT-3的指标能够对有监督训练模型的指标进行追赶。在语言理解问题中，few-shot BERT能够与基于fine-tune的模型不分上下（虽然仍然弱于SOTA）。

微调模型

Finetune GPT-2

阅读Guide to fine-tuning Text Generation models: GPT-2, GPT-Neo and T5，该文给出了代码片段，教学如何微调GPT-2和T2模型，使其用于情感分析任务。
项目的完整代码可见于Finetuning GPT-2 (for sentiment classification)、T5 finetuning，该代码基于hugginface实现的transformers提供的模型接口开发。

GPT-J

参考How you can use GPT-J，该项目由Eleuther AI公司训练，为了打破GPT-3的垄断而出现的。该项目是开源的、参数相对较少的(6B)，效果却优于没有开源、参数更多(175B)的GPT-3。项目已开源上传至hugginface，详见EleutherAI/gpt-j-6B。

GPT-4chan

GPT-4chan是一个脏话回帖机器人，由著名的油管主播yk编写，在某reddit频道的大量帖子与回复上训练。可观看油管视频GPT-4chan: This is the worst AI ever进行了解。

可阅读gpt-4chan 运行笔记。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 大力出奇迹——GPT系列论文学习（GPT,GPT2,GPT3,InstructGPT）
下一篇 > GPT大模型使用心得体会

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce