Swin Transformer的读论文记录
ST为cv提供了一个通用的骨干。
T从语言应用到视觉有两个挑战:1、视觉实体的scale变化太大;2、相比于文本中的单词来说,高分辨率图像的像素点太多。
由此,提出了层次化T,代表是通过窗口偏移来计算的。
SW通过将self-attention限制在不重叠的窗口中,同时允许跨窗口连接。
ST通过分层架构,使得model可以在不同scale中使用,以及拥有线性复杂度。这些特质使得ST可以应用于大范围的视觉任务中。
分层设计和移动窗口方法也证明对所有的mlp架构是有益的。
VIT从单一低分辨率提取特征,而且是平方的复杂度(从全局计算自注意力)。
ST构造了一个层次特征映射,从小的灰色框开始,在深层时,逐渐融合相邻的块。

通过这些层次特征映射,STmodel可以方便地使用高级技术来进行密集检测,例如特征金字塔。
线性计算复杂度通过计算图片中不重叠的窗口中的自注意力实现。
每个window(红色框)中的块数是确定的,因此复杂度变成线性的了。
这俩优点相比于之前的Transformer架构,使得ST可以作为多种多样视觉任务的通用骨干。
ST的一个关键设计元素是:在连续的
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
