"其实想写这个已经很久了,一直拖着没写,特别是在老罗的锤子发布会时老罗展示了一下讯飞的语音识别,我和观众都被惊到了,不过不同的是:观众惊讶是因为身边居然有这么牛逼的黑科技,而我惊讶是因为这东西我用了将近2年了(以开发时间来算),居然还有这么多人不知道这种语音AI。"

啥是智能语音交互

其实想写这个已经很久了,一直拖着没写,特别是在老罗的锤子发布会时老罗展示了一下讯飞的语音识别,我和观众都被惊到了,不过不同的是:观众惊讶是因为身边居然有这么牛逼的黑科技,而我惊讶是因为这东西我用了将近2年了(以开发时间来算),居然还有这么多人不知道这种语音AI。

因为我从事的公司是做机器人的,所以我了解的技术可能要稍前卫点(虽然这些都都不会,毕竟只是一个开发app的),包括:室内定位、室内导航、SLAM算法、激光雷达算法、人脸检测、人脸识别、手势识别、图像识别、人体跟踪、和深度学习、语音交互在我们的机器人上都有用到。和这些个大神同事相比,我就是个渣渣。

而我在这块主要是负责整个的手机端和平板端的开发,刚好今天也将语音交互方案设计好了,语音交互是属于我这块的,比较了解这块的功能内容,所以今天主要是将语音交互的基础功能写下,在这不会写代码,只讲主体流程。

-1-语音交互主体流程

首先,我们看总体的语音交互过程。

语音交互流程

稍微解释一些吧:

总体分为3个部分:语音识别、语义分析、语音合成。

不知道什么意思?OK,解释一下:

语音识别:将连续语音快速识别为文字,给应用配上“耳朵”。

语义理解:将语音识别的文字进行智能分析得到结果,给应用配上“大脑”。

语音合成:将文字信息转化为声音信息,给应用配上“嘴巴”。

所以语音交互的总体流程是:

人说话通过麦克风采集音频文件 -->语音识别:将音频文件识别出你讲的文字内容 --> 语音分析:将识别出的文字进行分析得到你要的结果(如、问:今天需要打伞吗,他通过语音分析会告诉你今天不需要打伞因为天气预报说今天晴,气温:xx度到xx度)--> 语音合成:因为通过语义分析出来的内容是文本形式的,所以你需要通过合成将文本内容合成音频播报出来。

OK,很容易理解吧,这就是一个简单的大体的语音交互流程。

-2-痛点

看完上面你会不会觉得很简单,是的很简单,如果这是这样是简单,但是我们考虑的远远不只这些。
先看看这这个总体交互过程中会出现那些痛点。

语音交互痛点

然后我在拓展一下我们在用的时候的新痛点并加以解释为什么这些是痛点:

1:远场识别:已Siri为栗子,你如果拿着手机进行语音交互那肯定没问题,但是如果你将手机放在2米之外你能用语音控制你的手机?更不用说在机器人上点击一个按钮去交互一个流程,点击一个按钮交互一个流程,那也太特么low了对吧。这是痛点之一

2:发音要标准:作为一个标准的福蓝人,你知道有多少H跟F不分的人吗?来举个栗子,如果我问:湖南有多大,但是我HF不分啊,我说成了福蓝有多大,你觉得他会告诉你什么答案。这是痛点之二

3:环境要安静:在人多声音很嘈杂的时候你打电话给别人,别人都不一定听的懂你说什么,更何况机器;来,继续举个栗子,如果我在问“今天天气怎么样”,但是旁边一傻逼在大声的唱“你是我的小呀小苹果”,然后他有没有可能识别成“今天我的小苹果怎么样”,你猜结局会怎样?这是痛点之三。

4:不能联系对话:你肯定会说,能连续对话呀,所以的语音助手包括siri都能联系对话;OK,破费科特,证明你玩的语音助手比较多,我这里说的不能连续对话是:你必须等siri说完,你才能继续说话(除非你按按钮打断他才能继续跟他说话),你能像人一样:在人说话的同时,你不需要打断他或者等他说完在问他问题,你在他说话的同时问他问题,他听到问题之后马上停止说话然后回答你的问题吗?这是痛点之四。

5:方言:你知道中国有多少种方言吗?56个名族56个之花啊,百度了一下硬是没找到一个具体的值;来,给你说个故事:有次在养老院进行机器人调研,几十个老爷爷奶奶全清一色的长沙话,“你们要搞么子咯,噶东西哦司用咯,他听的懂我港么子不咯”,那么问题来了,你听懂说什么了吗,这特么是最入门级了好吗,但是机器人听不懂啊,还有一个问题,你知道50、60岁的大爷讲普通话是什么样的感觉吗?这是痛点之五。

以上这就是痛点,要解决这些痛点不容易,但是也是很重要的事情。特此向我国伟大的讯飞科技致敬,因为他们一直致力于这方面的研究并取得了很不错的成绩还将成果造福于人类(虽然收费真特么贵),就像老罗所表达的一样,总有一些牛逼的人默默的做着牛逼的事情。

-3- 麦克风阵列 :远距离叫醒你的设备

前面找了几个痛点其实讯飞已经帮你解决了,远场识别、环境要按钮(当然还有些细节方面的就不说了)讯飞都提供了解决方案。

随意解释一下什么事麦克风阵列吧:

大家知道我们普通的有的麦克风拾音距离很回音消除做的都很有限,随意说话远距离是录音是录不到的,还有就是如果喇叭和录音机的位置很近会造成很多的回声等问题,而讯飞提供的麦克风阵列就解决了这些问题。

远场识别的干扰因数

网络图片,侵则删

麦克风阵列原理

侵则删

下面随便录制一个小视频,方便大家理解。(简书不能上传本地视频,所以有兴趣的同学到百度云盘看下吧,也不大)
http://pan.baidu.com/s/1cFxXRw

这个视频能看出以下几点
1:不用用户用手点击按钮进行交互
2:可远距离唤醒设备(虽然你看不出距离,但是数据是5米之内)
3:稍微不是很安静的环境下是没有问题的。

所以说他还是解决了我们很大的问题,我们在项目中也应用到了他,虽然他真特么贵。

总结

ok,先写到这吧,因为我发现越往下写就越有打广告的嫌疑,如果大家感兴趣在写也不迟。

作者 Souv

0   0   0   0      
0 回帖