SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集

©PaperWeekly 原创 · 作者 | 金金
单位 | 阿里巴巴研究实习生
研究方向 | 推荐系统

简介
自然语言对话系统最近引起了极大的关注。由于许多对话模型是数据驱动的,因此高质量的数据集对这些系统至关重要。在本文中,作者介绍了 Pchatbot,这是一个大规模对话数据集,包含分别从微博和司法论坛收集的两个子集。
为了使原始数据集适应对话系统,作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。Pchatbot 的规模明显大于现有的中文数据集,这可能有利于数据驱动模型。
此外,当前个性化聊天机器人的对话数据集通常包含多个角色句子或属性。与现有数据集不同,Pchatbot 为帖子和回复提供匿名用户 ID 和时间戳。这使得个性化对话模型的开发能够直接从用户的对话历史中学习隐含的用户个性。
本文的初步实验研究对几种最先进的对话模型进行了基准测试,以便为未来的工作提供比较。

论文标题:
Pchatbot: A Large-Scale Dataset for Personalized Chatbot
论文来源:
SIGIR 2021
论文链接:
https://arxiv.org/abs/2009.13284

数据集构造
本文的两个数据子集主要是通过爬取微博和司法论坛上的公开 post-response 数据,并按照如下的步骤进行处理:
匿名化:作者使用基于规则的方法或信息提取模型用占位符替换数据中的私人信息。具体来说,作者使用正则表达式来识别电子邮件、电话号码和帐号等文本,并使用 NER 模型来提取名称和地址等实体。
过滤敏感词:敏感词是通过匹配方法与精炼的敏感词表进行检测。由于敏感词在语义方面也很重要,简单地用占位符替换它们会破坏句子的完整性。因此,作者直接过滤掉所有带有敏感词的(post、response)对。
按长度过滤对话:作者清理长度小于 5 或大于 200 的对话,因为短话语往往包含有限的信息,而长话语通常有噪音。
分词:对于中文分词,作者使用 jieba 工具包。由于 jieba 是针对一般中文分词实现的,作者引入了一个法律术语列表作为 PchatbotL 中增强的额外词典。
通过一系列处理,和已有的数据集相比,本文的数据集具有显著更大的规模。

以下是具体的两个数据子集的统计信息。


基准实验
在此基础上,作者给出了基于检索和基于生成的对话模型的基准效果,为后续实验提供支持。

作者进一步分析了对话长度和训练数据多少的影响,发现对话的长度增加的确有利于模型效果的提升,而过多的训练数据可能会导致模型倾向于生成更类似的回复。


结论
在本文中,作者介绍了 Pchatbot 数据集,它分别具有开放域和司法域的两个子集,即 PchatbotW 和 PchatbotL。Pchatbot 中的所有帖子和回复都附有用户 ID 和时间戳,这极大地扩展了个性化聊天机器人的潜力。此外,Pchatbot 数据集的规模明显大于以前的数据集,这进一步增强了智能对话代理的能力。作者用几个基线模型评估 Pchatbot 数据集,实验结果证明了用户 ID 和大规模触发的巨大优势。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读




#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
