[State of GPT] OpenAI讲座随笔记

2023-08-27 03:36:46

原版：State of GPT
B站翻译版：【精校版】Andrej Karpathy微软Build大会精彩演讲： GPT状态和原理 - 解密OpenAI模型训练

1 GPT Training Pipeline图解

记录一下对这个图的理解：

在这里插入图片描述
大模型训练的四个阶段：

Pretraining 阶段，数据：低质量的大量文本，模型任务：Predict Next Token任务；这个阶段的模型更多是模型补全，不等于问答；最漫长的训练步骤，需要个把月，底层模型的选择与训练代价非常大了
SFT监督学习，Prompt问答对的数据，训练集采集的难度较大
Reward Modeling反馈式模型，判别式模型
RL learning 强化学习，在RM基础上继续强化

2 阶段一：Pretraining 阶段

预训练阶段的模型目标是预测下一步，
在这里插入图片描述
虽然不能跟问答一样，当然可以给一些提示，达到类似回答的效果：

3 阶段二：SFT监督学习

supervised finetuning

在这里插入图片描述
prompt 是人类指令，response 是标注员写得针对人类指令的示例回复；
高质量问答：

这个数据集整理难度蛮高，对于标注员来说需要高质量的回答

4 阶段三：Reward Modeling反馈式模型

在这里插入图片描述
模型采用的是分类判别式模型，
写一个判断字符串是否是回文字符串的 python 程序，
基于 SFT 模型生成多个回复，比如下面生成了三个回复后让标注员来对生成结果进行排名（排名难度较大，一个 prompt 的答案甚至可能需要几个小时来标注）
在这里插入图片描述

5:阶段四： RL learning 强化学习

基于上一步的 RM 模型进行强化学习训练，对于prompt之后补齐的文章进行给分，不太好的就负分，好的给高分
在这里插入图片描述

6 一些结论

RLHF强化学习相关：

【阶段三 RM】与【阶段四 RL】都是对结果进行特定的“强化”，不过RLHF 模型效果比较好，所以需要加上
karpathy 认为 RLHF 有用的原因是判别比生成更容易，让标注员去写一些 SFT 的 QA 数据对是比较难的，如果有一个 SFT 模型生成一些数据让标注员判断哪个更好就简单很多
RLHF 模型降低了熵，对输出文本的确定性更强，SFT 模型更善于给出有区分度的回答

其他还有：
SFT 相对容易；RLHF 很难，非常不稳定，很难训练，对初学者不友好，而且可能变化快，不推荐一般人来做

7 一些使用建议

讲座还说了一些写prompt的技巧

推理任务的Prompt方式：Chain of thought

两种方式：

few-shot CoT
就是根据QA给出一些推理逻辑，然后再问下一个问题，相当于有一个例子可以学习一下
zero-shot-CoT
最简单就是Prompt最后加一句话【 Let’s think step by step】

答案不满意，多生成几次

如果对答案不满意，可以多生成几次
在这里插入图片描述

反思答案，模型其实并不管生成的内容是否正确，所以你可以反问他，或者prompt的时候多加一句，让他自己检查

在这里插入图片描述

Constrained prompting，按规则模型输入、输出

在这里插入图片描述

参考材料：

State of GPT (OpenAI Karpathy 介绍 ChatGPT 原理及现状)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > LLM笔记
下一篇 > AI 2022：浪潮奔涌，百舸争流

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce