讯飞输入法产品总监:语言技术的突破将加速认知革命和人工智能的实现

这是 PMCAFF 专访的第 3 期。

这一期的对话大咖,是讯飞输入法产品总监 @翟吉博


从老罗的第一场发布会到今年 10 月 18 日的背水一战,讯飞这个熟悉而又神秘的名字就经常出现在我们的视线。

2010 年发布的讯飞语音输入法,可以算是全球首款语音输入法。根据赛诺市场近日公布的《2016 年 Q3 语音输入法行业分析报告》来看,2016 年 3 季度,中国语音输入法市场规模为 4.95 亿,而讯飞输入法的语音用户渗透率达到了 59%。

输入法,这一看似不起眼的场景,却占据了未来人机交互最重要的入口。

为什么讯飞输入法能在在竞品林立的环境中突围?达到老罗口中「97% 的识别率」高识别率?语音交互技术在未来还会有哪些可能?

这些,讯飞输入法产品总监 @翟吉博 给我们作出了解答。

(以下问答由 PMCAFF 产品社区采访讯飞输入法产品总监 @翟吉博 的采访整理)

Q:市场上大部分输入法都有语音输入,讯飞在产品做差异化,保证核心竞争力上有过哪些尝试,或者是创新?

翟吉博:讯飞是最早支持语音输入的输入法,我们在 2010 年就推出了讯飞语音输入法,国内其他输入法一直到 2012 年才陆续支持语音输入。讯飞在产品上的尝试和创新都基于用户体验,让语音输入具有更广泛的普适性。

举例来说,讯飞的语音输入具备个性化识别功能,可以自动学习并适应用户使用习惯,直接用语音准确识别你手机通讯录里的人名,你用的越多,它越懂你;方言识别,让机器能够听懂方言,目前讯飞已经支持 19 种方言;离线识别,在没有网络环境情况下也能进行识别,讯飞输入法不仅能在离线时使用语音输入,还能在复杂的网络情况下自动切换在线和离线语音;语音翻译也就是“随声译”功能,能够说中文出英文,说英文出中文,增进不同人群的沟通。

以上这些都是讯飞自主研发的语音识别技术,并且已经在讯飞输入法上得到应用,这是市面上其他输入法语音输入无法实现的。

Q:输入法语音识别技术有哪些难点?

翟吉博:正所谓“识别一秒钟,线下十年功”。事实上,在极短时间内,输入法的语音识别系统经历了一个极为复杂的分析过程。导致语音识别出现问题的原因有很多。比如:

(1)不可避免的发音人“口音差异”。不仅是南北口音差异,每个人都有独有的发音习惯,需要不同的海量数据进行适应训练,使语音识别系统习惯不同人的发音。

(2)环境噪声干扰。在语音输入过程中,机器不像人耳很难分辨出说话人声和环境噪声,容易把所有的声音都进行识别,同时噪声对说话人声也产生干扰。

(3)网络因素。在线语音识别需要通过网络在服务端与客户端传输数据,网络质量差或传输不稳定易导致语音识别慢、效果差。

Q:目前讯飞在中文语音识别方面口碑不错,为什么会比准确度比其他产品高?

翟吉博:讯飞研发了一种名为前馈型序列记忆网络 FSMN (Feed-forward Sequential Memory Network) 的新框架。这个框架可以把 DNN、主流的双向 RNNRNN 很好地融合,同时各个技术点对效果的提升可以获得叠加;同时研发一种名为深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

此外讯飞还分析算法的计算特点,搭建了一套快速的深度学习计算平台——深度学习平台,大大提升训练效率,加快深度学习相关应用的研究进程,使得在语音识别的准确率逐步提升,达到业界最高。

Q:方言识别、中英文混合输入优化、个性化定制会成为未来讯飞优化的重点吗?

翟吉博:实用、个性化的语音技术是未来讯飞输入法的发展方向。无论方言识别、中英文混合输入优化、个性化定制,我们可以把语音识别拓展到更多生活场景中去,不断地给用户提供更好的用户体验。

Q:从 Smartisan T1 到 Smartisan M1 为什么会选择一直跟锤子合作?

翟吉博:讯飞始终认为语音是未来人机交互的发展方向,语音以后会取代键盘、触摸屏成为手机上主流的交互方式。在对未来人机交互方式的理解上,老罗和讯飞高度一致,所以在老罗做 T1 的时候就已经和讯飞合作,并且一直到 M1 锤子的手机都在使用讯飞的语音技术;另外,除了对技术的需求,老罗和讯飞对工匠精神的追求也高度一致。

Q:语音输入的场景相对来说较窄,对使用环境要求也较高,为什么讯飞会选择语音输入作为切入点?

翟吉博:讯飞认为人工智能将会像水和电一样进入我们每个人的生活,万物互联将成为现实,而语音将成为人机交互的刚需,如果在语音和语言技术方面突破,将加速认知革命和人工智能的实现。语音输入对机器而言就是“语音识别”的能力,相当于“机器的听觉系统”,让机器通过识别和理解,把语音信号转变为相应的文本或指令。

2010 年,科大讯飞发布了全球首款语音输入法——讯飞输入法;

2012 年开放了语音理解和智能问答,这些能力可以解决在交互中理解用户语意;

2014 年在交互上帮助合作伙伴语音唤醒,声纹识别,人脸识别和语音测评,提出的“讯飞超脑”计划,希望实现机器从“能听会说”到“能理解会思考”的转变,即感知智能发展到认知智能。

而语音输入正是人工智能发展的大基础,需要不断夯实。

Q:百度硅谷推语音输入法 TalkType,希望将语音输入的优先级提升到键盘输入之上,您如何看待这样的情况?

翟吉博:目前用户体验最好的输入方式是集合语音、拼音和手写输入。所以讯飞输入法在同一界面实现语音、拼音、手写输入免切换,更加符合用户使用习惯,用户可以在不同场景选择最适合自己的输入方式。

值得注意的是,百度 TalkType 也只是一种尝试,因为在语言、文化、风俗、习惯等方面存在差异化,所以目前 TalkType 只有英文输入;另一方面,使用 TalkType 语音输入过程中,用户选字、发表情等还是需用手来选,语音交互体验上还有待提升。

Q:现有的输入法会做一些诸如个性化的词库、记忆输入等优化,讯飞在个性化功能上有过哪些尝试?效果如何?

翟吉博:在语音方面,不仅有离线语音、方言语音、语音翻译,还能在语音输入中智能添加标点,具有个人语音词库、联系人识别等,用解决了语音用户的输入痛点;在手写方面,支持多字叠写、多字连写以及手写笔迹特效(模拟毛笔、荧光笔);在输入法上独创了音乐皮肤、动态皮肤、百变皮肤等个性化界面,融合视觉、听觉和触觉,带来不一般的输入体验。

Q:现在年轻人使用表情包的人群比重较大,讯飞在这部分有打算和考量吗?

翟吉博:其实讯飞输入法早在 2013 年就开始扩充颜文字的内容了,并且去年和 B 站做过一次声势浩大的颜文字补全计划活动。今年 4 月份,讯飞输入法产品内上线斗图功能,通过产品的改进让用户在聊天过程中可以迅速使用各种表情包,成为斗图高手。目前表情商店的“斗图”每日都会更新表情,很受年轻用户群的喜爱。

Q:中文中有很多同音词,语音输入中是如何做词义区分的?比如 tongyi,如何确定为“同意”而非“同义”。

翟吉博:目前主流的大词汇量语音识别系统多采用统计模式识别技术,因此可能存在同音词识别难点。而讯飞应用个性化的方案,通过区分日常用语、搜索类、地图类、音乐类、数字数值类等多个应用场景,并分类划分文本训练数据和训练相应的应用个性化语言模型。

简单地说,讯飞输入法的语音识别过程会结合上下文关系和应用场景(根据用户待输入文本框的属性),来智能选择相应的应用模型来进行识别,进而显著提升了特定类别下的识别效果和用户的感受。

Q:输入法作为人机交互的重要入口,比如目前跟高德地图有语音导航上的合作,你觉得输入法未来还有发展方向?

翟吉博:我理解为你说的是使用场景,你提到的车载场景会是一个方向,目前讯飞有自己的车载业务线,搭载讯飞人机交互技术的轿车前装出货车型和在研车型近百款;另一个场景是家庭,随着语音技术的成熟和智能硬件的发展,语音输入的应用会逐渐从手机渗透到家庭,国内主流电视厂商几乎采用的都是讯飞的语音交互技术,新的交互方式会大大减少用户操作电视的步骤。、

文 |PMedia