【第58篇】DEiT:通过注意力训练数据高效的图像transformer 蒸馏
文章目录
- 摘要
- 1 介绍
- 2 相关工作
- 3 视觉transformer概述
- 4 通过注意力蒸馏
- 5 实验
- 5.1 Transformer模型
- 5.2蒸馏
- 5.3 效率与精度:与convnets的比较研究
- 5.4 迁移学习:下游任务的性能
- 6 训练细节及消融
- 7 结论
摘要
最近,纯基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的是使用大型基础设施预先训练数以亿计的图像,从而限制了它们的采用。
本文仅通过在Imagenet上训练,产生有竞争力的无卷积transformer。我们用一台电脑在不到3天的时间里训练它们。所提出的参考视觉transformer (86M参数)在没有外部数据的情况下,在ImageNet上实现了83.1%(单裁剪)的top-1精度。
更重要的是,引入了transformer特有的师生策略。它依赖于蒸馏令牌,确保学生通过注意力从老师那里学习。展示了这种基于令牌的蒸馏的兴趣,特别是在使用convnet
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
