深度学习(五、注意力机制与强化学习以及目前主要应用)
注意力机制
由于优化算法和计算能力的限制,神经网络在实践中很难达到通用近似的能力。网络不能太复杂(参数太多)。为了提高网络的能力,分别采用了一些措施,如局部连接、权重共享、汇聚操作等。简单循环神经网络存在长期依赖问题,( LSTM网络)引入一个近似线性依赖的记忆单元来存储远距离的信息。记忆单元的存储能力和其大小相关。如果增加记忆单元的大小,网络的参数也随之增加。
大脑中的注意力:人脑每个时刻接收的外界输入信息非常多,包括来源于视觉、听觉、触觉的各种各样的信息。但就视觉来说,眼睛每秒钟都会发送千万比特的信息给视觉神经系统。人脑通过注意力来解决信息超载问题。


人脑与机器不严格的对比
深度强化学习
强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。强化学习就是智能体不断与环境进行交互,并根据经验调整其策略来最大化其长远的所有奖励的累积值。

深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决状态表示、策略表示等问题。两种不同的结合强化学习和深度学习的方式,分别用深度神经网络来建模强化学习中的值函数、策略,然后用误差反向传播算法来优化目标函数。
AI目前的进展与一些应用
语音的研究目前最为成熟,已经实现了产品化。
1、语音识别:即将语音转为文字,成熟的产品有有道云笔记等,可支持普通话、粤语、四川话等作为输入,业界研究的数据集上正确率已经达到了99%,只有少量同音字可能会翻译错误。
2、声纹识别:即判断两段语音是否是同一人的语音,常见产品有语音打卡机,公安局证据链确立,银行系统无卡语音取钱(精度92%~95%,还需进一步研究才能大规模投入产品使用)。
图像
1、图像身份辨别:如停车场收费、刷脸支付、公安厅监控抓拍自动识别等,领域内公开数据集精度已经高达99.99%,该技术已成熟。
2、图像分类:主要用于网络监控,防止暴力、色情图像的传播,维护绿色网络,该技术较为成熟。
3、图像理解:即见图说话,输入一幅图片,输出该图片的描述,主要服务于视力障碍患者,该技术尚不成熟。
4、图像生产:如画风迁移、科幻片背景生产等,该技术趋于成熟。

文本
1、图像文本提取:即提取出图像中的文本,也称OCR,用于身份证识别、银行卡识别、验证码识别等,该技术已成熟并产品化。
2、文本分类:用于电商文本情感分类、政治反动、暴力社情文本的监控等,该技术较为成熟。
3、错词纠正:主要用于自动对检索中用户输入的错别字进行纠正,完善用户体验,该技术尚不成熟。
4、文章摘要:主要用于新闻文本的缩写,该技术尚不成熟。
5、文本翻译:即将文本从一种语言翻译到另一种语言,该技术较为成熟。
6、自动问答:即让计算机自动回答客户问题,该技术尚不太成熟。目前机器阅读理解能力很低。
视频
1、异常检测:对于摄像头突发暴力事件等自动检测与报警提醒,防止违法视频的传播等,该技术较为成熟。
2、目标追踪:实时追踪视屏中目标的轨迹,该技术较为成熟。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
