图神经网络在nlp的应用,神经网络语音识别原理

为什么 Deep Learning 最先在语音识别和图像处理领域取得突破

当然,深度学**不是神,并不是无所不能。从上面的分析我们知道,是深度学**看起来无比光明的前景让大家把它应用到语音、图像领域。

而它之所以能在语音和图像领域获得成功,又回过头促进深度学**发展,背后必然是有一定的道理的。第一个非常重要的原因就是问题1中提到的——大量数据(硬件装备各个领域都一样,就不考虑了)。为什么这么说?

比如语音识别中用到的深度学**技术,除去最新的端到端技术,大部分都是在上世纪就已经有了的,但是到2012年,LiDeng和Hinton等人才写出了语音识别中划时代的文章“DeepNeuralNetworksforAcousticModelinginSpeechRecognition”,中间差的是什么,一个关键就是大量的数据。

举个例子,一个语音识别系统,当训练数据达到3000小时时能有较好的效果。3000小时什么概念?可以想象一下自己听一段演讲,然后把它逐字逐句敲下来,这才多少小时?

而谷歌、微软他们的训练数据则更是海量的几万个小时。同样,在图像识别领域,ImageNet则有百万张图片,这么多的数据让当年六万张手写数字的mnist情何以堪。

正是这些大量的数据,使得深度学**应用到这两个领域成为可能。这里可能有稍微了解语音识别的同学要提出疑问:“有很多研究单位现在研究小数据量下的深度学**,不是说必须要数据量大才管用么?

”注意,这里所谓的小数据只是某一类别的数据少,而全体“可用”数据仍然很多。比如在语音识别中,我可以说训练粤语的数据量很少,但是我可以通过已有的大量普通话数据,还帮助我提高识别粤语的性能。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部