自然语言处理-应用场景-聊天机器人(一)：fastText实现意图识别【QA/问答机器人、TASK/任务机器人、CHAT/闲聊机器人】--＞代码封装、对外提供接口

2023-09-26 04:47:54

一、聊天机器人概述

1. 目前企业中的常见的聊天机器人

QA/KB BOT（问答机器人）：回答问题
1. 代表：智能客服、
2. 比如：提问和回答
TASK BOT (任务机器人)：帮助人们做事情
1. 代表：siri
2. 比如：设置明天早上9点的闹钟
CHAT BOT(聊天机器人)：通用、开放聊天
1. 代表：微软小冰

2. 常见的聊天机器人怎么实现的

2.1 问答机器人的常见实现手段

信息检索、搜索（简单，效果一般，对数据问答对的要求高）

关键词：tfidf、SVM、朴素贝叶斯、RNN、CNN
知识图谱（相对复杂，效果好，很多论文）

在图形数据库中存储知识和知识间的关系、把问答转化为查询语句、能够实现推理

2.2 任务机器人的常见实现思路

语音转文字
意图识别、领域识别、文本分类
槽位填充：比如买机票的机器人使用命令体识别填充 从{位置}到{位置}的票2个位置的
回话管理、回话策略
自然语言生成
文本转语音

2.3 闲聊机器人的常见实现思路

信息检索（简单、能够回答的话术有限；但是回答准确度高）【实际应用中用的比seq2seq多】
seq2seq 和变种（答案覆盖率高，但是不能保证答案的通顺等）【实际应用中用的不如信息检索多】

3. 企业中的聊天机器人是如何实现的

3.1 阿里小蜜-电商智能助理是如何实现的

参考地址：https://juejin.im/entry/59e96f946fb9a04510499c7f

3.1.1 主要交互过程

在这里插入图片描述

从图可以看出：

输入：语音转化为文本，进行理解之后根据上下文得到语义的表示
输出：根据语义的表是和生成方法得到文本，再把文本转化为语音输出

3.1.2 技术架构

在这里插入图片描述

可以看出其流程为：

判断用户意图
如果意图为面向目标：可能是问答型或者是任务型
如果非面向目标：可能是语聊型

3.1.3 检索模型流程（小蜜还用了其他的模型，这里以此为例）

在这里插入图片描述

通过上图可知，小蜜的检索式回答的流程大致为：

对问题进行处理
根据问题进行召回，使用了提前准备的结构化的语料和训练的模型
对召回的结果进行组长和日志记录
对召回的结果进行相似度计算，情感分析和属性识别
返回组装的结果

3.2 58同城智能客服帮帮如何实现的

参考地址：http://www.6aiq.com/article/1536149308075?p=1&m=0

3.2.1 58客服体系

58的客服主要用户为公司端和个人端，智能客服主要实现自动回答，如果回答不好会转到人工客服，其中自动回答需要覆盖的问题包括：业务咨询、投诉建议等

3.2.2 58智能客服整体架构

整体来看，58的客服架构分为三个部分

基础服务，实现基础的NLP的功能和意图识别
应用对话部分实现不同意图的模型，同时包括编辑运营等内容
提供对外的接口

3.2.3 业务咨询服务流程

大致流程

KB-bot的流程大致为：

对问题进行基础处理
对答案通过tfidf等方法进行召回
对答案通过规则、深度神经网络等方法进行重排序
返回答案排序列表

使用融合的模型

在问答模型的深度网络模型中使用了多套模型进行融合来获取结果

在模型层应用了 FastText、TextCNN 和 Bi-LSTM 等模型
在特征层尝试使用了单字、词、词性、词语属性等多种特征

通过以上两个模型来组合获取相似的问题，返回相似问题ID对应的答案

3.2.4 58的闲聊机器人

58同城的闲聊机器人使用三种方法包括：

基于模板匹配的方法
基于搜索的方式获取（上上图）
使用seq2seq的神经网络来实现

3.2.5 解决不了转人工服务

智能客服解决不了的可以使用人工客服来实现

二、需求分析和流程介绍

1. 需求分析

在小智同学板块实现聊天机器人，能够起到智能客服的效果，能够为使用app的用户解决基础的问题，而不用额外的人力。

但是由于语料的限制，所以这里使用了编程相关的问题，能够回答类似：python是什么，python有什么优势等问题

2. 效果演示

在这里插入图片描述

3. 实现流程

3.1 整体架构

在这里插入图片描述
整个流程的描述如下：

接受用户的问题之后，对问题进行基础的处理
对处理后的问题进行分类，判断其意图
如果用户希望闲聊，那么调用闲聊模型返回结果
如果用户希望咨询问题，那么调用问答模型返回结果

3.2 闲聊模型

闲聊模型使用了seq2seq模型实现

包含：

对数据的embedding
编码层
attention机制的处理
解码层

在这里插入图片描述

3.3 问答模型

问答模型使用了召回和排序的机制来实现，保证获取的速度的同时保证了准确率

问题分析：对问题进行基础的处理，包括分词，词性的获取，词向量的获取
问题的召回：通过机器学习的方法进行海选，海选出大致满足要求的相似问题的前K个
问题的排序：通过深度学习的模型对问题计算准确率，进行排序
设置阈值，返回结果

在这里插入图片描述

三、环境准备

1. Anaconda环境准备

下载地址：https://mirror.tuna.tsinghua.edu.cn/help/anaconda/
下载对应电脑版本软件，安装
1. windows ：双击exe文件
2. unix：给sh文件添加可执行权限，执行sh文件
添加到环境变量
1. windows安装过程中勾选
2. unix：export PATH="/root/miniconda3/bin:$PATH"
创建虚拟环境
1. conda create -n 名字 python=3.6(版本)
2. 查看所有虚拟环境： conda env list
切换到虚拟环境
1. conda activate 名字
退出虚拟环境
1. conda deactivate 名字

2. fasttext安装

文档地址：https://fasttext.cc/docs/en/support.html

github地址：

 
安装步骤： 
下载 git clone https://github.com/facebookresearch/fastText.git
cd cd fastText
安装 python setup.py install
 
3. pysparnn安装 
文档地址：https://github.com/facebookresearch/pysparnn 
安装步骤： 
下载：git clone https://github.com/facebookresearch/pysparnn.git
安装：python setupy.py install
 
四、语料准备 
1. 自定义分词词典【补充jieba等第三方分词库中没有的特定词汇】 
最终词典的格式： 
 词语 词性(不要和jieba默认的词性重复) 
 
 
1.1 词典来源 
 各种输入法的词典
 例如：https://pinyin.sogou.com/dict/cate/index/97?rf=dictindex
 例如：https://shurufa.baidu.com/dict_list?cid=211
 
 手动收集，根据目前的需求，我们可以手动收集如下词典
 机构名称，例如：传智，传智播客,黑马程序员
课程名词，例如：python,人工智能+python，c++等
 
 
1.2 词典处理 
输入法的词典都是特殊格式，需要使用特殊的工具才能够把它转化为文本格式 
工具名称：深蓝词库转换.exe 
下载地址：https://github.com/studyzy/imewlconverter 
1.3 对多个词典文件内容进行合并 
下载使用不同平台的多个词典之后,把所有的txt文件合并到一起供之后使用 
2. 准备停用词【有别人已经整理好的停用词库可供调用】 
2.1 什么是停用词？ 
对句子进行分词之后，句子中不重要的词 
2.2 停用词的准备 
常用停用词下载地址：https://github.com/goto456/stopwords 
2.3 手动筛选和合并 
对于停用词的具体内容，不同场景下可能需要保留和去除的词语不一样 
比如：词语哪个，很多场景可以删除，但是在判断语义的时候则不行 
3. 问答对的准备 
3.1 现有问答对的样式 
问答对有两部分，一部分是咨询老师整理的问答对，一部分是excel中的问答对， 
最终我们需要把问答对分别整理到两个txt文档中，如下图（左边是问题，右边是答案）： 
 
Excel中的问答对如下图： 
 
3.2 excel中问答对的处理 
Excel中的问答对直接使用pandas就能够处理 
python_qa_path = "./data/Python短问答-11月汇总.xlsx"
def load_duanwenda():import pandas as pdret = pd.read_excel(python_qa_path)column_list = ret.columnsassert '问题' in column_list and "答案" in column_list,"excel 中必须包含问题和答案"for q,a in zip(ret["问题"
                        
                        
本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！



                    



                    

    收藏
    



                    
    
        
        标签：技术
        
    

    
        
                
            上一篇 >
            OpenCV中读取、显示、保存摄像头视频讲解与实战（附Python源码）
        
                
            下一篇 >
            200道大数据面试常考Leetcode算法题--二分查找篇（python带代码解析）
        
                
    



                    
    
        
        
            相关文章
        
                
            Duilib中list控件支持ctrl和shif多行选中的实现
        
                
            [ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif
        
                
            win10系统 微软输入法 于eclipse ctrl+shif+f冲突间接处理办法
        
                
            Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif
        
                
            读LDD3，内存映射与DMA--PAGE_SHIF…
        
                
            VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】
        
                
            更换iBus五笔的左与右Shif
        
                
            sublime ctrl+shif+f 没用解决办法
        
                
            idea 对 ctrl + z 的撤销 是 ctrl + shif + z
        
                
            计算机最早的设计师应用于,计算机应用基础选择题doc.doc
        
                
            win10自带截图神器：Win+Shift+S
        
                
            Python基础之文件目录操作
        
                
            python简述目录_Python基础之文件目录操作(示例代码)
        
                
            tp5 如何做数据采集
        
                
            任务2-7(服务器字体+阿里巴巴矢量库)
        
                
            html标签（1)：h1~h6,p,br,pre,hr
        
                
            TI 电量计介绍与芯片选型指南
        
                
            几款TI电源芯片简介
        
                
            TI DSP芯片C2000系列读取FLASH数据
        
                
            德州仪器(Ti)平台嵌入式开发基础
        
                
            TI三相电机智能栅极驱动芯片特点分类
        
                
            省选模拟（12.08） T3 圈圈圈圈圈圈圈圈
        
                
            Hadoop生态圈技术栈（上）
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询
        
                
            小猿圈之Linux下Mysql 操作命令
        
                
            大数据Hadoop生态圈常用面试题
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
        
                
            备战Noip2018模拟赛11（B组）T3 Monogatari 物语
        
                
            【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码
        
                
            NYOJ 78 圈水池
        
                
            递归问题 跑道 汽车 绕圈问题 Python实现
        
                
            Hadoop生态圈（三）：MapReduce



        
            


            

    
        内容推荐
    
    
                
            
                1
            
            
                大厂出品！保姆级教程帮你掌握「用户体验要素」
            
        
                
            
                2
            
            
                大厂实战案例！设计师如何助力京东快递业务增长？
            
        
                
            
                3
            
            
                总监干货！5个常见的UI设计规范创建误区
            
        
                
            
                4
            
            
                数据库管理利器——Navicat Premium v17.0.4学习版(Windows+MacOS+Linux)
            
        
                
            
                5
            
            
                进阶必学！快速掌握10种国际主流设计模型
            
        
                
            
                6
            
            
                春节期间，10个大厂的产品细节走心设计
            
        
                
            
                7
            
            
                如何帮助用户度过新人期？来看雪球APP的实战总结！
            
        
                
            
                8
            
            
                Sketch 95.3最新版下载 (Sketch矢量绘图应用软件)
            
        
                
            
                9
            
            
                Axure RP 9 最新正式版安装软件与汉化语言包下载(2023年3月30日更新)
            
        
                
            
                10
            
            
                嘘！SaaS产品的差异化设计细节，一般人我不告诉他
            
        
            




    





    
    
        最新更新
    
    
        
                        
                [产品经理]
                3分钟绘制流程图！这个AI+绘图工具的神仙组合，学完老板直呼内行
            
                        
                [产品经理]
                商业潜规则：打败你的不是AI，而是人性
            
                        
                [产品设计]
                DeepSeek+智能派单系统的实践分享
            
                        
                [产品经理]
                一文读懂本年实际损益借(贷)方发生额
            
                        
                [创业学院]
                大客户 vs 中小企业：需求竟天差地别？以企业培训数字化为例
            
                        
                [产品经理]
                不要将员工的“猴子”背到自己身上：职场管理中的权责划分
            
                        
                [产品经理]
                人工智能的三层架构：从应用层到基础服务层，解密智能革命
            
                        
                [产品设计]
                一文讲清楚iOS的SKAN4.0
            
                    
    
    



    
        热门标签
    
    
        
                         数量
                         AI技术趋势
                         用户角色
                         心智游移
                         自然生态系统
                         会员权益
                         AirDrop
                         hashmap
                         小龙虾
                         焦虑
                         危机处理
                         发展
                         微信群折叠
                         toast
                         测评新算法
                         改版
                         wireshark
                         投放方式
                         音频播放动效
                         timer
                         女性商业
                         古典自媒体
                         海外博主
                         repeater
                         转账
                         万能钥匙
                         秋招
                         快服务
                         个人演讲
                         客户共识

自然语言处理-应用场景-聊天机器人(一)：fastText实现意图识别【QA/问答机器人、TASK/任务机器人、CHAT/闲聊机器人】--＞ 代码封装、对外提供接口

一、聊天机器人概述

1. 目前企业中的常见的聊天机器人

2. 常见的聊天机器人怎么实现的

2.1 问答机器人的常见实现手段

2.2 任务机器人的常见实现思路

2.3 闲聊机器人的常见实现思路

3. 企业中的聊天机器人是如何实现的

3.1 阿里小蜜-电商智能助理是如何实现的

3.1.1 主要交互过程

3.1.2 技术架构

3.1.3 检索模型流程（小蜜还用了其他的模型，这里以此为例）

3.2 58同城智能客服帮帮如何实现的

3.2.1 58客服体系

3.2.2 58智能客服整体架构

3.2.3 业务咨询服务流程

大致流程

使用融合的模型

3.2.4 58的闲聊机器人

3.2.5 解决不了转人工服务

二、需求分析和流程介绍

1. 需求分析

2. 效果演示

3. 实现流程

3.1 整体架构

3.2 闲聊模型

3.3 问答模型

三、环境准备

1. Anaconda环境准备

2. fasttext安装

3. pysparnn安装

四、语料准备

1. 自定义分词词典【补充jieba等第三方分词库中没有的特定词汇】

1.1 词典来源

1.2 词典处理

1.3 对多个词典文件内容进行合并

2. 准备停用词【有别人已经整理好的停用词库可供调用】

2.1 什么是停用词？

2.2 停用词的准备

2.3 手动筛选和合并

3. 问答对的准备

3.1 现有问答对的样式

3.2 excel中问答对的处理

相关文章

自然语言处理-应用场景-聊天机器人(一)：fastText实现意图识别【QA/问答机器人、TASK/任务机器人、CHAT/闲聊机器人】--＞代码封装、对外提供接口