文章目录
- 摘要
- 1、简介
- 2、相关工作
- 3、方法
- 3.1、重新思考optimizer的功能
- 3.1.1、使用SGD
- 3.1.2、隐式BatchSize
- 3.2、LOMO:低内存优化
- 3.3、使用LOMO稳定训练
- 3.3.1、梯度归一化和裁剪的替代方法
- 3.3.2、缓解精度下降
- 4、实验
- 4.1、内存配置
- 4.2、吞吐量
- 4.3、下游性能
- 4.3.1、主要结果
- 4.3.2、LoRA与LOMO
- 5、结论
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!