资源有限的大型语言模型的全参数微调

文章目录

  • 摘要
  • 1、简介
  • 2、相关工作
  • 3、方法
    • 3.1、重新思考optimizer的功能
      • 3.1.1、使用SGD
      • 3.1.2、隐式BatchSize
    • 3.2、LOMO:低内存优化
    • 3.3、使用LOMO稳定训练
      • 3.3.1、梯度归一化和裁剪的替代方法
      • 3.3.2、缓解精度下降
  • 4、实验
    • 4.1、内存配置
    • 4.2、吞吐量
    • 4.3、下游性能
      • 4.3.1、主要结果
      • 4.3.2、LoRA与LOMO
  • 5、结论


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部