【好书提炼】聊天机器人技术原理与应用

本文作者:王小草 资深算法工程师

本文是对2019年3月出版的《自然语言处理实践-聊天机器人技术原理与应用》的全书内容提炼,若有不当之处,请联系本文作者。在此感谢本书作者王昊奋、邵浩、李方圆、张凯、宋亚楠。

阅读方法:
对聊天机器人、NLP有基础的同学,可以通过本文迅速了解当前聊天机器人或智能对话的系统知识、框架,对感兴趣的点可以自己去深入研究;
对聊天机器人、NLP没有基础但又想了解的同学,可以对照着原书进行阅读,本文是对原书的浓缩、提炼,帮助你更快得掌握核心知识,而非读过就忘。没时间读原著的话,也可以直接阅读本文进行一个概况了解。

一、聊天机器人概述

1.1 聊天机器人发展历史

阶段时间发明人机器人实现方式
溯源与萌芽阶段(1950-1990)1950图灵提出图灵测试
1966麻神理工约瑟夫·魏泽鲍姆name:ELIZA,目的:临床模拟罗杰斯心里治疗关键词匹配+人工编写回复规则
1972美国精神病学家肯尼思-科比尔name:PARRY,目的:模拟偏执型精神分裂症会话策略比ELIZA更严谨
1988英国程序员罗洛·卡彭特name:Jabberwacky,目的:模拟自然的人际聊天上下文模式匹配技术,没有硬编码的规则
1988UK Berkeley罗伯特·维斯林斯name:UC,目的:帮助用户学习使用UNIX操作系统规则+建模,提高了聊天进机器人的智能话程度
1990美国科学家休·勒布纳设立仍只能年度比赛,测试机器聊天与思考的能力
研究兴起阶段(1990-2010)1995AI科学家理查德·华勒斯name:Alice,目的:聊天阈值问题模板匹配(本文作者对ALICE有相关介绍:https://blog.csdn.net/sinat_33761963/article/details/79232894)
2001name:SmartChild,目的:应用于短信和即时聊天工具
2006IBMname:最强大脑Watson,目的:搜索只是问答基于IBM“深度问答”技术的超级计算机,采用上百种算法3秒内找出特定问题的答案
2010年至今2010苹果siri,目的:个人助理实体驱动+NLU
2014微软小冰、小娜(cortana),目的:娱乐深度学习+搜索
阿里小蜜
京东JIMI
网易七鱼
2014亚马逊echo,目的:智能助手
2016谷歌Allo个人助理、深度学习、用户内嵌
2016公子小白,目的:社交自我认知
2017小米小米音箱,目的:多种技能,智能家居
2017阿里天猫精灵,目的:生活购物

1.2 聊天机器人分类

1.2.1 基于应用场景分

场景类别功能当前产品
在线客服聊天机器人系统自动回复产品、服务的相关问题,降低企业客服运营成本,提升用户体验京东JIMI, 阿里小米
基于娱乐的聊天机器人系统不限主题的闲聊、用于陪伴与慰藉;也提供特定主体服务,如查天气等微软小冰、微信“小微”、北京龙泉寺“贤二机器僧”
教育场景下的聊天机器人系统帮助用户学习某种语言;指导用户深入熟悉某项技能;帮助辅助学习UC、儿童教育机器人
个人助理聊天机器人系统实现用户个人事务的查询代办siri、小米音箱、echo
智能问答聊天机器人系统回答用户以自然语言形式提出的事实型及复杂推理的问题,帮助用户获得信息于辅助决策waston

1.2.2 基于实现方式分

实现方式类别介绍
检索式回答是提前设定好的,通过规则引擎、模式匹配、机器学习模型,在知识库中挑选一个最佳的回复给用户,优点是回答自然,缺点是需要准备超大只是库
生成式不依赖于提前定义的回答,利用大量的语料训练监督模型,使得该模型能输入用户问题,自动生成一个回复,有点是能覆盖任意领域,缺点是生成式的效果存在问题,比如句法错误,通顺度等

1.2.3 基于功能分

功能类别功能场景当前产品
问答系统获取用户需要的知识客服、知识检索watson
任务型对话系统完成用户的某个任务,如打电话,充话费、订机票、订酒店siri
闲聊系统陪用户闲聊娱乐、情感陪伴微软小冰
主动推荐系统信息推荐个性化推荐今日头条

本文作者:前三者为当下聊天机器人的主要的3个方向,问答系统主要应用的是语言理解、匹配与检索技术;任务型对话系统主要技术是意图识别、对话管理;闲聊主要是自然语言检索与生成。

1.3 聊天机器人生态系统

聊天机器人的系统一般有以下5部分组成:
语音识别–>自然语言理解–>对话管理–>自然语言生成–>语音合成
其中语音识别和语音合成是语音方面的知识,暂且不在本书中作为讲解对象。

语音识别:语音转换成文字
自然语言理解:将自然语言转换成计算机能理解的表征
对话管理:根据当前对话管理状态判断系统应采取的策略
自然语言生成:将系统策略转换为自然语言回复给用户
语音合成:将文本转换为语音

二、聊天机器人技术原理

1.自然语言理解

1.1聊天机器人中的自然语言理解

聊天机器人的自然语言理解一般包含以下几个方面:

NLP解释
实体识别人名、地名、机构吗、专有名词德国
意图识别显式意图与隐式意图
情感识别显式情感与隐式情感
指代消解明确代词的指代对象
省略恢复恢复被省略掉的句子成分
回复确认当用户意图模糊时,聊天机器人主动询问,确认用户意图
拒绝判断主动拒绝识别及恢复超出范围的或者设计敏感话题的用户输入

1.2 自然语言理解的基本技术

基本技术分类
词法分析汉语分词
词性标注
句法分析依存句法分析
短语结构句法分析
深层文法句法分析
语义分析将自然语言表征成及其可理解的向量

1.3 自然语言表征与理解

句子、段落、文章的表示词袋模型 bag of words


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部