基于matlab的强化学习QLearning路径规划性能仿真

2023-10-15 06:04:29

1.算法概述

2.仿真效果预览

3.核心MATLAB代码预览

4.完整MATLAB程序

1.算法概述

假设我们的行为准则已经学习好了, 现在我们处于状态s1, 我在写作业, 我有两个行为 a1, a2, 分别是看电视和写作业, 根据我的经验, 在这种 s1 状态下, a2 写作业带来的潜在奖励要比 a1 看电视高, 这里的潜在奖励我们可以用一个有关于 s 和 a 的 Q 表格代替, 在我的记忆Q表格中, Q(s1, a1)=-2 要小于 Q(s1, a2)=1, 所以我们判断要选择 a2 作为下一个行为. 现在我们的状态更新成 s2 , 我们还是有两个同样的选择, 重复上面的过程, 在行为准则Q 表中寻找 Q(s2, a1) Q(s2, a2) 的值, 并比较他们的大小, 选取较大的一个. 接着根据 a2 我们到达 s3 并在此重复上面的决策过程. Q learning 的方法也就是这样决策的. 看完决策, 我看在来研究一下这张行为准则 Q 表是通过什么样的方式更改, 提升的.

Q-Learning它是强化学习中的一种 values-based 算法，是以QTable表格形式体现，在学习中遇到的任何操作存入QTable中，根据之前的学习选择当前最优操作，也可以根据设置的e_greedy机率随机选择。

Q-Learning的QTable标签更新公式：

Q-Learning的计算步骤:

1.判断在当前位置可以有几种操作；

2.根据当前位置允许的操作选择一个操作；

3.根据选择的操作进行奖赏；

4.修改当前行为的本次操作权重；

2.仿真效果预览

matlab2022a仿真测试如下：

3.核心MATLAB代码预览

NNPolicy=zeros(prod([driver_actions Xscale Yscale]),1); 
for i=1:pathtimesiPositions = stpt;   drivers   = 0;   %开车E         = zeros(prod([driver_actions Xscale Yscale]),1);for j=1:maxiter%计算训练驾驶策略if j>=2   Choice      = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]);Choice2     = ndi2lin([drivers Prestate(1) Prestate(2)],[driver_actions Xscale Yscale]);delta       = feedback + cb*max(NNPolicy(Choice:Choice+driver_actions-1))-NNPolicy(Choice2);E(Choice2) = 1;NNPolicy   = NNPolicy + ca*delta*E;E          = cb*lambda*E*~exploring;end%选择动作Choice  = ndi2lin([1 Positions(1) Positions(2)],[driver_actions Xscale Yscale]); Choice  = [Choice:Choice+driver_actions-1];                              tmps    = find(NNPolicy(Choice) == max(NNPolicy(Choice)));   %是否转向        drivers = tmps(ceil(rand * length(tmps)));   %探索策略if rand32Error(k)=mean(Itertion_times(length(Itertion_times)-32+1:length(Itertion_times))); elseError(k)=mean(Itertion_times(1:length(Itertion_times))); endk=k+1;
end
A_005

4.完整MATLAB程序

matlab源码说明_我爱C编程的博客-CSDN博客

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 教务系统没有网课成绩_买的继续教育网课没听完怎么办？
下一篇 > 强化学习Q-Learning算法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

基于matlab的强化学习QLearning路径规划性能仿真

1.算法概述

2.仿真效果预览

3.核心MATLAB代码预览

4.完整MATLAB程序

相关文章