您当前的位置:首页 >> 工业物联
工业物联

CVPR 2022 | 提高小数据集利用率,复旦等提出分层级联ViT网络

发布时间:2025-09-13

>

Class Token 行政官员

绘出片输出到 DINO 因特网之前,时会经过 encoder 后作用于一个 class token 和 N 个的 patch tokens,之后 class token 便通过一个 MLP 获取事与愿违的转换成。相异于传统行政官员方式则,由于 DINO 本身的自行政官员设计者,加剧事与愿违的转换成相当是一个 one-hot 内积,而是一个低尺度的内积。因此我们为每一个表单设计者了一个尺度的可深造内积作为该子类的改由也就是说,通过 KL 散度将同一表单的转换成聚拢。

在公式 1 之前,

是 student 因特网之前的 class token 经过 MLP 的事与愿违转换成,是该表单近似于的自然语言也就是说改由内积。

为 KL 散度量解构。

Patch Tokens 行政官员

在 Transformer 之前,由于缺少 patch 级别的表单电子邮件,patch tokens 一般很难与 class token 同时用来行政官员因特网。为了对 patch tokens 来进行行政官员,我们把 N 个 patch tokens 用经过 softmax 配置后的冲动行列式来进行加权分拆量解构,获取一个一个系统 token,然后运用于和 class token 并不相同的行政官员方式则对该一个系统 token 来进行行政官员。

其之前,

为 class token 对其他 patch tokens 的冲动行列式,

是 encoder 后转换成的 patch tokens,

为加权分拆后的一个系统 token。

公式 3 与公式 1 运用于并不相同的解决方案。

明人聚类 tokens 池解构

许多工作, 如 GroupFPN [4] 和 GLOM [5] 都证明了多尺度系统内对 CNN 和 Transformer 都必需。本文的设计者意在是为了将系统内嵌入到 Transformer 之前来减低因特网对基本特征的判别意志力。与 Swin Transformer [4] 常用固定的几何体池解构方案相异,本文借助于线状几何体池解构方式则来不够灵活地匹配绘出片构造。由于 Transformer 将在 tokens 两者之间作用于自冲动行列式,因此它为明人聚类方法 [5] 提供了强大的本质经验,以根据自然语言关联和空间布局对 tokens 来进行拆分分拆。因此我们指称出有了一种基于明人聚类的池解构方式则,称为明人聚类 tokens 池解构。

为了保持一致各 patch 两者之间原有的前方关系电子邮件,本文对于 ViT 之前的 N 个 patch tokens 两者之间的冲动行列式以致于了两处限制,使每个 patch 只和相邻的 8 个 patch 有关联。

其之前,A_p 是 patch tokens 的冲动行列式,H 是举例来说前方电子邮件的两处行列式。

然后我们对 S 行列式认真一个 softmax 配置获取我们事与愿违无需的 S' 行列式作为明人聚类 tokens 池解构的输出。

如上方法示意绘出,每一次池解构后我们将获取同类聚类仅量减至的上新 tokens。

在本文的因特网设计者之前,操练下一阶段首先时会操练第一下一阶段的 Transformer 因特网来获取一个有较好表征意志力的基本特征作用于器,随后便引入池解构配置,以致于二三下一阶段 Transformer 共同操练。事与愿违在三下一阶段之前通过检验集挑选出有匹配结果作为事与愿违转换成。

绘出 2:明人聚类池解构的可视解构绘出

检验结果

我们分别在四个普及的 Few-Shot Classification 仅据集:mini-Imagenet, tiered-Imagenet, CIFAR-FS 和 FC100 上认真了概述的检验。

事与愿违结果如表 1,2,3 示意绘出:相比之下于现有的 SOTA 框架,HCTransformers 在 1-shot 和 5-shot 的结果上都标示出出有明显的性能优势。例如,如表 1 示意绘出,在 miniImagnet 上,HCTransformers 比匹配 SOTA 结果分别高达有 5.37%(1-shot) 和 4.03%(5-shot)。在 tieredImagenet 上,我们的方式则在 1-shot 和 5-shot 上的表现分别比同样的 DC [6] 方式则高达有 1.48% 和 1.81%。与 DC 相比之下,我们不无需从 base 操练集之前借用类某类绘出片的统计电子邮件,并且常用不够轻量级的确定性。此外,我们的方式则和第三好的方式则两者之间的贫富差距是 5.09%,这也进一步检验了我们的表彰。

这样令人印象深刻的结果要正因如此我们的因特网构造,它能深造到仅据之前固有的内在电子邮件,并具有很差的泛解构意志力。表 2 和表 3 分别标示出了在小图像仅据集 CIFAR-FS 和 FC100 上的结果。HCTransformers 在这些低图像设置之前标示出出有和 SOTA 类似或不够好的结果: 在 CIFAR-FS 上减低了 1.02%(1-shot) 和 0.76%(5-shot); 在 FC100 上减低了 0.51%(1-shot) 和 1.12%(5-shot)。在小图像仅据集上,我们并没有超越以前的 SOTA 方式则很多,我们将其归因于 ViT 的 patch 机制:当绘出片图像较小时,如 32*32,每一个 patch 所举例来说的单单图像过少,很难所含出有有用的基本特征透露。DeepEMD [7] 的检验也断定了 patch cropping 时会对小图像绘出片激发负面影响。即便如此,我们的方式则仍然在这两个基准上都获得了属于自己 SOTA 结果。

参考资料

[1]. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An imageis worth 16x16 words: Transformers for image recognition at scale. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021.OpenReview.net,2021. 1, 2, 3, 7, 8

[2]. Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294, 2021. 3, 5

[3]. Jean-Bastien Grill, Florian Strub, Florent Altch´e, Corentin Tallec, Pierre H.Richemond, Elena Buchatskaya, Carl Doersch, Bernardo ´Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, R´emi Munos, and Michal Valko. Bootstrap your own latent-A new approach to self-supervised learning. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria- Florina Balcan, and Hsuan-Tien Lin, editors, Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020. 3

[4]. Gangming Zhao, Weifeng Ge, and Yizhou Yu. Graphfpn:Graph feature pyramid network for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2763–2772, 2021. 1

[5]. Geoffrey Hinton. How to represent part-whole hierarchies in a neural network. arXiv preprint arXiv:2102.12627, 2021. 1

[6]. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. International Conference on Computer Vision (ICCV), 2021. 2, 4

[7]. Andrew Y Ng, Michael I Jordan, and Yair Weiss. On spectral clustering: Analysis and an algorithm. In Advances in neural information processing systems, pages 849–856, 2002. 1, 5

[8]. Shuo Yang, Lu Liu, and Min Xu. Free lunch for few-shot learning: Distribution calibration. In International Conference on Learning Representations (ICLR), 2021. 6

[9]. Chi Zhang, Yujun Cai, Guosheng Lin, and Chunhua Shen. Deepemd: Few-shot image classification with differentiable earth mover’s distance and structured classifiers. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 6, 7, 8

天津看男科去哪看
广州肿瘤检查
上海看白癜风哪个医院比较好
山东银屑病治疗费用多少钱
杭州看白癜风哪里最好

上一篇: 传奇重量级拳王昔日别墅,以185万美元重新出售,依旧豪华十足

下一篇: 苏提达得体穿搭正因如此,霸主头衔弥补缺陷,独揽镜头羡煞旁人

友情链接