[算法前沿]--011-DeepSpeed-Chat 模型训练实战(上部)
文章目录
- 1. DeepSpeed-Chat是什么?
- 2. 开发环境安装
- 测试环境
- 3.ChatGPT模型训练基本流程
- 4.代码训练过程
- 4.1 模型训练调用过程(以1.3b模型为例)
- 4.2 Facebook opt
1. DeepSpeed-Chat是什么?
DeepSpeed-Chat是微软最新公布的一套工具,用于训练类ChatGPT模型。该工具基于微软的大模型训练工具DeepSpeed,使用它可以非常简单高效地训练自己的ChatGPT。该工具具有以下特点:
- 完整的训练类ChatGPT的代码:包括预训练模型下载、数据下载、InstructGPT训练过程和测试。
- 多种规模的模型:模型参数从1.3B到66B,即适合新手学习也可用于商用部署。
- 高效的训练:通过使用最新技术,如ZeRO和LoRA等技术改善训练过程,让训练过程更高效。例如,一个67亿(6.7B)参数的模型,使用8块A00只需要约5个小时就可以完成训练。
- 推理API:提供易于使用的推理API,方便进行对话式
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
