语音

年终解读:2017 年的语音识别,路只走了一半

这一年,百度开放了语音平台DuerOS,阿里补贴了4个亿销售百万智能音箱抢占语音入口。而作为语音识别的先驱龙头,大家开始担心科大讯飞用近二十年建立起来的技术壁垒被摧毁,有人扒讯飞的业务,有人开始扒讯飞十年的财报......这一年的人工智能大潮,无疑让更多人关注科大讯飞,关心在这样的潮流里,一家深耕语音识别的公司如何能获得更多业务和利润,如何能去迎合AI上升的趋势,从而满足人

从领先到落后,苹果 Siri 和它动荡的 7 年时光

从被仰慕到被调侃,Siri 足足花了七年时间。而Siri 的未来会走向何方,也许只有苹果自己才知道。2011 年,在 iPhone 4s 面世的当天,苹果 Siri 也以智能语音助手的身份初次正式亮相,并成为当时发布会上最大的亮点。三年后,亚马逊的 Alexa 初试啼声,又过了两年,Google Assistant 姗姗来迟。但 7 年时间过去了,这个最早登场、并被大众所熟

AI助力语音克隆,人和自己“对话”的障碍在哪?

语音克隆技术是什么?又能做些什么?如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?这个场景并不遥远,不久前,“AI First”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音

一篇文章搞懂语音交互的来龙去脉

文章对语音界面设计的一些知识展开分析解读,希望能够给你带来启发。过去60年人工智能经历了两次潮起潮落-AI时代的头十年和后十年,前十年:解决行业问题,医疗教育等,大数据和机器学习迅速提升效率与准确率;新ai时代的后十年:升级到消费产品和用户生活场景(无人驾驶车,智能家居,家用机器人等领域)。我们现在正处于语音智能产品的爆发之际,我们需要一个专业而系统的归纳,帮助我们在语音交

一文看懂语音技术商业化逻辑:对品牌意味着什么 ?

语音技术,对品牌意味着什么?基于语音的技术将对许多行业产生巨大影响,在短短两年内,预计50%的搜索将基于语音技术。该项技术的普及率可能因用户的年龄、地理位置和读写能力而有所不同,但一些市场和平台已拥有很高的渗透率, 而全球10%的搜索已经是基于语音的搜索。在这一领域将会出现新的赢家和输家,而现有品牌将需要考虑到在收购过程中失去对消费者对话的控制的影响,这加大了在竞争中脱

继视频直播之后,语音直播会是下一个风口吗

在视频风口过后,沉淀多年的语音直播也正迎来最大的风口。荔枝相关数据显示,荔枝已经拥有300万月活主播,月活跃用户数达3000万,近期主打直播的陌陌股价开始衰退,而微博股价则不再上涨,此前宣布卖身宣亚的映客也宣告失败,此外诸多直播小平台也接连消失,直播行业正式进入衰退与重塑。因此继直播之后,下一个行业风口在哪也成为业界关注话题。值得注意的是,此前不被行业关注的语音直播,却越走

语音交互科普:AI能和你语音聊天吗?

为什么会有语音交互?它适用于什么场景?不适用于哪些?文章为你解读。什么是语音交互在没有机器之前,人类最早的交互方式就是语言和动作。如今,在 自然交互方式 的趋势下,我们又回到了语言这种交互形式上。原始的交互方式,就是人与人用语言、动作、眼神交互,人与物用动作交互。机器刚出现的时候,并没有人机交互的理念,机器很难操作,需要人去学习和适应。肖尔斯的“QWERTY”键盘会

千家灯火里,普通人中的AI开发者在做什么?

普通人的小确幸,小成就,大概就是如此。看似他们在做的事情很简单,却蕴含着坦诚和努力思考。怎么样?是不是已经被BAT谷歌微软亚马逊啥啥啥的人工智能故事给弄疲乏了?圣诞节是个在属于普通人的日子。不如咱们借着这个机会,去看看AI世界里那些聚光灯之外的普通人——比如那些只能下班之后才搞搞AI的开发者。DuerOS之前开始推出了普通开发者就可以申领的开发套件。一段时间之后,我们在论坛

语音识别类产品的分类及应用场景

本文主要针对人工智能中的感知智能展开分享,聊聊其中的“语音识别类产品”。媒体和AI巨头们乐于给大众描绘一幅幅精彩的未来生活蓝图:人工智能可以化身为你的爱车,在沙漠、森林或小巷中风驰电掣;可以是智慧公正的交警,控制红绿灯、缓解交通的拥挤;还可以是给人以贴心照顾的小助理,熟悉你生活中的每一处小怪癖。在看到这些美妙的畅想之后,作为一个严谨认真的AI产品经理,我不禁想去探索上述美好

语音交互实例:从切换播放模式细节想到的

这一段项目时间不是很紧张,比较有时间去探讨一些细节的问题,有些东西可以做有些东西可以不做,去探究背后的原因是一件很有趣的事情。一、简单介绍VUI想必大家对于语音交互并不是很了解,而车载方面的语音交互更是陌生。这里我先来科普下大背景,至于对这个方面比较感兴趣的可以查找一下资料,想必其他的文章会很详细的介绍理论。这里我先讨论在实际应用当中的需求探索。首先语音交互是从交互式语音应