【第58篇】DEiT:通过注意力训练数据高效的图像transformer 蒸馏

文章目录

  • 摘要
  • 1 介绍
  • 2 相关工作
  • 3 视觉transformer概述
  • 4 通过注意力蒸馏
  • 5 实验
    • 5.1 Transformer模型
    • 5.2蒸馏
    • 5.3 效率与精度:与convnets的比较研究
    • 5.4 迁移学习:下游任务的性能
  • 6 训练细节及消融
  • 7 结论

摘要

最近,纯基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的是使用大型基础设施预先训练数以亿计的图像,从而限制了它们的采用。

本文仅通过在Imagenet上训练,产生有竞争力的无卷积transformer。我们用一台电脑在不到3天的时间里训练它们。所提出的参考视觉transformer (86M参数)在没有外部数据的情况下,在ImageNet上实现了83.1%(单裁剪)的top-1精度。

更重要的是,引入了transformer特有的师生策略。它依赖于蒸馏令牌,确保学生通过注意力从老师那里学习。展示了这种基于令牌的蒸馏的兴趣,特别是在使用convnet


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部