炼丹秘术：给Embedding插上翅膀

2023-06-26 18:52:27

在实践中，推荐系统利用Deep Learning去生成Embedding，然后通过Embedding在召回层进行召回是一种常用的方法，而且这种方法在效果和响应速度上也不比多路召回差。

同时，在局部敏感哈希方法快速近邻计算的加持下，Embedding表现亮眼，本文作为“炼丹知识点”系列的第6期，我们来聊一聊到底Embedding的相关知识点。

炼丹知识点：模型评估里的陷阱

炼丹知识点：那些决定模型上限的操作

炼丹知识点：模型的燃料，数据采样的秘密

炼丹知识点：深度模型的起跑线，初始化的意义

炼丹知识点：秘制Normalization

局部敏感哈希，英文locality-sensetive hashing，常简称为LSH。主要运用到高维海量数据的快速近似查找，近似查找便是比较数据点之间的距离或者是相似度。主要思想是，高维空间中，两点若距离很近，那么设计一种哈希函数对这两点进行哈希值计算，使得他们哈希值有很大的概率是一样的。同时若两点之间的距离较远，他们哈希值相同的概率会很小。

对于电商平台而言，商品搜索服务已经是人们日常购物中重中之重的服务了，商品的召回决定了搜索系统的质量。商品搜索需要从一个巨大的语料库中找到最相关的商品，同时还要保证个性化。系统的表现主要受到搜索query和召回商品相关性，还有训练和预估不一致的影响。这篇论文就提出了一种多粒度的深度语义召回系统，保证了训练预估一致性，并使用softmax cross-entropy loss作为训练目标，使得最终召回效果更好，模型收敛速度更快。

我们先看下淘宝商品搜索系统的全貌，每个环都是一个阶段：

我们可以看到retrieval阶段有亿级别的商品，通过我们的深度语义召回系统最终召回上万个相关商品。接下来开始介绍深度语义商品召回模型，我们有用户全集U={u1,u2,...,UN}，还有query集合Q={q1, q2, ..., qN}，同时还有商品集合I={i1, i2, ..., iM}。我们把用户历史行为序列参照时间区间分到3个子集，实时集合R = {i1, i2, ..., iT}，短期集合 S = {i1, i2, ..., iT}，长期集合L = {i1, i2, ..., iT}，所以任务就是给定一个用户u的(R,S,L)，以及query，返回top-K items:

用户塔：淘宝中的query多为中文，在切词后平均长度小于3，因此我们提出了多粒度的语义单元，从不同的语义粒度挖掘query含义，提升query的表达精度。给定一个query的切词q={w1, ..., wn}(e.g. {红色，连衣裙})，每个单词可以拆成字粒度w = {c1, ..., cm}，同时我们还能拿到历史query qhis = {q1, ..., qk},所以我们可以得到6种粒度的表达：

Trm用的transformer，最后把6种粒度的embedding都concat在一起。

用户行为注意力机制: 用户历史点击购买的items，和每个item的side information，都可以通过embedding的方式将每个item都映射成固定长度的向量，这里我们用query与历史行为items做attention，找到相关items。对于实时集合，使用LSTM进行编码，然后套用个self-attention层，并在序列最前面加上0向量(以防历史行为没一个相关的)，最后用一个attention操作获得最终embedding，如下公式所示：

对于短期行为使用多头self-attention，头部添加0向量，并计算attention:

对于长期行为(一个月内)而言，分别对点击，购买，加购集合进行mean pooling，再与query进行attention：

对长期行为的item的店铺，类目，品牌做同样的操作，最后把embeding进行sum pooling:

最后再把以上所有进行融合：

商品塔：商品塔只需要把itemID和标题进行融合得到最终embedding，如下式所示:

e表示商品embedding，wi表示标题切词，wt是转移矩阵。

综上整个模型如下所示：

论文分析到hing loss只能做local的比较，由此会产生预估与训练的diff，所以该文直接用softmax cross-entropy loss，定义如下：

实践中论文使用的sampled softmax。

因为存在很多噪音数据，导致query和商品完全不相关，所以论文在softmax函数引入了一个温度:

在样本上，需要构造强负例，本文提出的强负例构造方法是在样本空间中构造，给定训练样本(qu, i+, i-)，i-是在样本池随机负采样，为了简化，i-在负样本池找到和qu点积最大的topN，并和i+进行融合成强负例，定义如下:

最终融合了强负例的softmax函数如下:

论文后面还有很多工程介绍，感兴趣可以参考原文。

炼丹秘术：给Embedding插上翅膀

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 从用户反馈的可解释性提升推荐模型
下一篇 > 关于知识蒸馏，你想知道的都在这里！

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

炼丹秘术：给Embedding插上翅膀

相关文章