解读：【腾讯】基于兴趣点图谱的内容理解

2023-11-24 06:42:54

重磅推荐专栏：《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！

1. 项目背景

1.1 推荐不准

在这里插入图片描述

1.2 信息蚕房

单只用“分类、实体、关键词”进行召回，容易导致信息蚕房。如果我们能挖掘出“用户为什么会消费”的“兴趣点”，就能很好的缓解该问题。
在这里插入图片描述

1.3 内容理解相关研究

在这里插入图片描述

1.4兴趣图谱

这里作者将兴趣点分层了概念、话题和事件
在这里插入图片描述

2. 兴趣点图谱建设

2.1 兴趣点挖掘

所谓的兴趣点，就是‘概念’、‘话题’、‘事件’的总称。作者在挖掘出兴趣点后，再基于句式规则、实体抽象等方法将兴趣点分类成‘概念’、‘话题’、‘事件’。下面我们主要介绍兴趣点是怎么挖掘的。

难点：
1）粒度难以合理成符合用户的兴趣
2）训练样本人工难以标注

方案：
1、使用UGC数据，即搜索数据，用户真实表达需求。
2、弱监督方法解决冷启动问题，一种方式是（Alignment Based）类似于计算最大公共子序列的方式得到兴趣点：
在这里插入图片描述
另外一种方式是（pattern bootstrapping）：
1、先预定义一些pattern集合
2、从Query集合中匹配Query
3、从匹配到的Query并提出候选兴趣点
4、用得到的候选兴趣点匹配出候选Query
5、基于候选Query泛化出候选Pattern
6、基于Pattern对应的兴趣点数量占比计算候选Pattern的得分，并过来分数低的Pattern，得到新增的Pattern
7.将新增的Pattern融合到pattern集合中，重复以上步骤
在这里插入图片描述

可以看到Q-Pattern和QT-Align准确率不错，但是覆盖率低却非常低。由此作者提出了改进的方案：

2.2 关系挖掘

2.2.1 上下位关系挖掘

2.2.1.1 分类-概念

在这里插入图片描述

2.2.1.2 概念-实体

在这里插入图片描述

个人认为该方案正样本数据量可能比较少。文章中，实体文字可以加上超链接，这样就能很好的基于用户点击行为获得。而且，我感觉用户”继续搜索“为真正的正样本的正确率可能也不是很高。

2.2.1.3 事件-话题

在这里插入图片描述

2.2.2 关联关系挖掘

在这里插入图片描述

3. 兴趣点图谱应用

3.1 内容理解

简单来说就是把文章打上概念、事件、话题。

3.1.1 召回

在这里插入图片描述
”词语级显示语义召回“的结果还会经过相似度计算过滤一波，以减少候选集：

3.1.2 匹配

由于是离线计算，所以语义匹配使用了MatchPyramid 交叉匹配的架构，还是加上了BOW相似度，最后两者线性融合：
在这里插入图片描述

3.2 效果

在这里插入图片描述

Figure 7 可以看出，基于兴趣点中‘话题’、‘事件’召回的点击率效果比较好，但是基于‘概念’召回的点击率效果会比实体都差。这是由于“概念”本质上是对实体进行了抽象，所以更具多样性，但准确性会降低。
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 【板栗糖GIS】如何查找某兴趣点的经纬度和进行坐标反查
下一篇 > 华为对话“新基建”核心开发者：共同重塑软件生产力

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

解读：【腾讯】基于兴趣点图谱的内容理解

1. 项目背景

1.1 推荐不准

1.2 信息蚕房

1.3 内容理解相关研究

1.4兴趣图谱

2. 兴趣点图谱建设

2.1 兴趣点挖掘

2.2 关系挖掘

2.2.1 上下位关系挖掘

2.2.1.1 分类-概念

2.2.1.2 概念-实体

2.2.1.3 事件-话题

2.2.2 关联关系挖掘

3. 兴趣点图谱应用

3.1 内容理解

3.1.1 召回

3.1.2 匹配

3.2 效果

相关文章