用Dropout思想做特征选择,保证效果还兼顾了线上性能?

这篇论文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教会了我们如何做粗排模型兼顾模型的效率和效果.提出了可学习的特征选择方法FSCD,并在真实电商系统中应用.

简介

7bcb9d3c778aeb87d3751223a94160b2.png

如上图(a)所示,受系统时延约束,推荐系统往往是多阶段的.再看图(b),论文提到简单的representation-focused(RF)模型会严重制约我们模型的表达能力(如传统双塔,最后一层向量Dot,就是简单RF模型),主要是缺少特征交叉.所以我们能否在特征上做优化,只保留效果好的特征又能保证模型推断效率更高,用上和精排一样interaction-focused(IF)的模型呢?当然是可以的!

FSCD

bd89eefc85e818a8f659a71c67362a9b.png

粗排用上精排的模型并且要保持高效率,也就意味着在某些方面要做牺牲,那果断就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上图所示,FSCD方法中效果是通过梯度优化,效率是通过特征维度的正则化来保证.在训练过程中就可以挖掘到一批有用的特征.

对于每个特征而言,都有个可学习的dropout参数Z ∈ {0, 1} ,并且是符合伯努利分布:

5b000dd5d4e26693f85d9a7b096aa723.png

该分布的超参是由特征复杂度cj决定的,cj是由特征的计算复杂度oj,向量维度ej,还有key的多少nj一起决定的.

05e981681358fdfabb27bfb0fac77ab3.png

340e76f7f0539b05b0b4a9cd1a7273fb.png

最终损失函数如下所示:

4d81f5d4c540259d22d943b23bbb4c16.png

我们可以看到每个zj还会乘上正则化系数:

5980a25ec75015bf5d26072e438136ac.png

又因为zj的伯努利分布不可导,可以近似为:

6d01c82effb118623d2b8d98de759376.png

实验

e696827f4dedf4df4bb00a5297fb3a58.png

参考文献

1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach arxiv.org/pdf/2105.0770

2、zhuanlan.zhihu.com/p/37


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部