【论文阅读】SensiMix: Sensitivity-Aware 8-bit index 1-bit value mixed precision quantization for BERT co

论文信息

在这里插入图片描述

SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT compression

作者:Tairen Piao, Ikhyun Cho, U. KangID*

发表单位:Seoul National University

发表期刊:PLOS ONE

Received: August 26, 2021

Accepted: March 4, 2022

Published: April 18, 2022

Abstract

如何权衡预训练BERT压缩效果和精度是一直以来模型压缩领域需要考虑的问题,本文提出了一种新的基于量化的BERT压缩方法SensiMix,该方法考虑了BERT不同模块的敏感度SensiMix将8bit和1bit量化应用于BERT敏感和不敏感部分,在最大化压缩率的同时最小化精度下降。

本文还提出了三种新的1bit训练方法来最小化精度下降:

  • Absolute Binary Weight Regularization 绝对二元权值正则化

  • Prioritized Training 优先级训练

  • Inverse Layer-wise Fine-tuning 反向分层微调

为了快速推理,对模型的8bit量化部分和1bit量化部分分


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部