Transformer又又又升级了?

Transformer,一个nlp绕不开的话题,现在连推荐和图像也绕不开了。这么强大的模型倒不是没有缺点,例如训练预估慢就是它的硬伤,所以常常受资源/时间等限制,都会优先尝试tiny-bert等较小的模型去处理,但是论文表明这种处理对效果是有一定影响的。有没有又快又好的模型呢?它来了-Fastformer,不仅线性复杂度,还刷新了很多榜单。

fastformer

先温习下transformer中的self-attention,如下图所示:

v2-5eed3b84fe259bab7fc5237a4eec4dbb_b.jpg

v2-b1e8a572901760fb8b66af5b2430c9f7_b.jpg

我们可以看到query中每个向量都需要与key中的向量做点积,才能最终得到最终向量。让我们再看看fastformer:

v2-e5a380476576e325ce74de097349bca3_b.jpg

我们可以看到query中所有向量通过additive attention聚合成了一个全局向量,然后和key做element-wise乘法,又通过additive attention聚合成全局key向量,最后和value做element-wise后做线性变换得到r1~rN,最后输出q1+r1, q2+r2, q3+r3。

additive attention, wq和wk是可学习的参数:

v2-2a1815e55053f084226e22499e0314c3_b.jpg

v2-51c0947b61346fd644725ee9ffa9d588_b.jpg

v2-e2fd51d387893cff3a6dee04ec86a5bd_b.jpg

v2-d2ff299e704befa3c71c13630b50be87_b.jpg

实验

v2-d0636b7f87bd7e792e1659bdb6854e46_b.jpg

v2-a41c0f91eb400cf496755598d331a06b_b.jpg

参考文献

1、arxiv.org/pdf/2108.0908

v2-5d4d23fcf43060572f0ca5e19b94717d_b.jpg


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部