改进YOLO系列 | YOLOv5更换骨干网络之 MobileViTs
《MobileViT:轻巧、通用、便于移动的视觉转换器》


论文地址:https://arxiv.org/abs/2110.02178
代码地址:https://github.com/chinhsuanwu/mobilevit-pytorch/blob/master
轻量级卷积神经网络(CNN)实际上是用于移动视觉任务的。他们的空间归纳偏差使他们能够在不同的视觉任务中以较少的参数学习表示。然而,这些网络在空间上是局部的。为了学习全局表示,已经采用了基于自我注意力的视觉变换器(ViT)。与CNN不同,ViT是重量级的。在本文中,我们提出了以下问题:是否有可能结合CNNs和ViT的优势,为移动视觉任务构建一个轻量级、低延迟的网络?为此,我们介绍了MobileViT,这是一种用于移动设备的轻型通用视觉转换器。MobileViT为使用变压器的全局信息处理提供了不同的视角。我们的结果表明,MobileViT在不同的任务和数据集上显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上,MobileViT以
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
