【论文阅读】SensiMix: Sensitivity-Aware 8-bit index 1-bit value mixed precision quantization for BERT co
论文信息

SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT compression
作者:Tairen Piao, Ikhyun Cho, U. KangID*
发表单位:Seoul National University
发表期刊:PLOS ONE
Received: August 26, 2021
Accepted: March 4, 2022
Published: April 18, 2022
Abstract
如何权衡预训练BERT压缩效果和精度是一直以来模型压缩领域需要考虑的问题,本文提出了一种新的基于量化的BERT压缩方法SensiMix,该方法考虑了BERT不同模块的敏感度。SensiMix将8bit和1bit量化应用于BERT敏感和不敏感部分,在最大化压缩率的同时最小化精度下降。
本文还提出了三种新的1bit训练方法来最小化精度下降:
-
Absolute Binary Weight Regularization 绝对二元权值正则化
-
Prioritized Training 优先级训练
-
Inverse Layer-wise Fine-tuning 反向分层微调
为了快速推理,对模型的8bit量化部分和1bit量化部分分
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
