Swin Transformer的读论文记录

ST为cv提供了一个通用的骨干。

T从语言应用到视觉有两个挑战:1、视觉实体的scale变化太大;2、相比于文本中的单词来说,高分辨率图像的像素点太多。

由此,提出了层次化T,代表是通过窗口偏移来计算的。

SW通过将self-attention限制在不重叠的窗口中,同时允许跨窗口连接。

ST通过分层架构,使得model可以在不同scale中使用,以及拥有线性复杂度。这些特质使得ST可以应用于大范围的视觉任务中。

分层设计和移动窗口方法也证明对所有的mlp架构是有益的。

VIT从单一低分辨率提取特征,而且是平方的复杂度(从全局计算自注意力)。

ST构造了一个层次特征映射,从小的灰色框开始,在深层时,逐渐融合相邻的块。

通过这些层次特征映射,STmodel可以方便地使用高级技术来进行密集检测,例如特征金字塔。

线性计算复杂度通过计算图片中不重叠的窗口中的自注意力实现。

每个window(红色框)中的块数是确定的,因此复杂度变成线性的了。

这俩优点相比于之前的Transformer架构,使得ST可以作为多种多样视觉任务的通用骨干。

ST的一个关键设计元素是:在连续的


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部