强化学习算法伪代码

ゝ一纸荒年。 2022-11-30 04:09 168阅读 0赞

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70]

## 基础公式 ##

[来源][Link 1]  
**累计回报：**  
在t时刻状态下选择行为所获得累计回报，其中每个R都是个随机变量。  
![在这里插入图片描述][20200330113509311.png]  
**状态价值函数：**  
状态s下的累计回报是多维随机变量，服从pi分布，因此使用期望累计回报表示该状态的价值。  
![在这里插入图片描述][20200330113713587.png]  
其贝尔曼方程为：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70 1]  
**状态-行为价值函数：**  
状态行为价值函数相比状态价值函数其区别在于行为已经选定。  
![在这里插入图片描述][20200330113852713.png]  
其贝尔曼方程为：  
![在这里插入图片描述][20200330114639408.png]  
**状态价值与状态-行为价值联系：**  
状态-行为价值只是状态价值确定一个行为后的分支。  
![在这里插入图片描述][20200330114744510.png]  
状态-行为价值选定行为后会得到reward，此外该行为下有多种可能的下一状态。  
![在这里插入图片描述][20200330114856489.png]  
互相代入后得到：  
![在这里插入图片描述][20200330115235990.png]

![在这里插入图片描述][20200330115206646.png]  
**最优价值函数：**  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70 2]  
在价值函数更新时目标值构建有所不同：  
![在这里插入图片描述][20200406155813370.png]  
![在这里插入图片描述][2020040615583168.png]  
因为A已经确定，回报因此确定：  
![在这里插入图片描述][20200406155850721.png]  
![在这里插入图片描述][20200406155914913.png]  
**Value-Based解决方案：**  
动态规划方法（**DP**）使用了上述的推导，使用bootstrapping(利用后继状态的价值估计当前价值)，不过动态规划方法需要知道模型的状态转移概率P，因此需要模型可知。  
![在这里插入图片描述][20200330120050435.png]  
但模型未知时可考虑蒙特卡罗方法（**MC**）利用经验平均估计期望的值函数。即原本的状态价值是累计回报的期望，可以使用多次实验的累计回报均值来代表。不过因为G是实验的累计回报，需要实验结束（回合更新）后才能学习。  
![在这里插入图片描述][20200330120631848.png]  
时序差分方法（**TD**）综合二者优点（单步更新+无模型）。使用R+rV（目标值）代替G。  
![在这里插入图片描述][20200330123929579.png]  
三种方法的区分可以以下公式分析，对于DP算法，其更新的目标值在公式(3)中，因为状态转移概率P已知，所以可以求解出期望。不过 v ( s t + 1 ) v ( s t + 1 ) v ( s t + 1 ) v(st+1)v(st+1) v(s\_\{t+1\}) v(st\+1)v(st\+1)v(st\+1)J(θ)=−m1∑j=1mQ(si,ai,w)，也就是想要在s状态下选择动作a，那么a的Q值就要尽可能的大。再对目标函数采用链式法则求导（对行为a，对参数theta）即可优化actor模型。

## 其他 ##

[几个比较经典的强化学习算法,以及在NLP中的应用][NLP]  
[深度强化学习落地方法论][Link 2]  
**reward设计：**  
[请问：强化学习中对于reward奖励值设定，对算法有什么影响，有没有相关的论文或者资料？][reward]  
[强化学习奖励函数塑形简介（The reward shaping of RL）][The reward shaping of RL]  
[强化学习中reward稀疏和无法获取问题解决方案][reward 1]

**trick：**  
[强化学习领域有哪些巧妙的想法？][Link 3]  
[深度强化学习落地方法论（7）—— 训练篇][7_]

## 疑问 ##

[强化学习中,对于连续的动作,value-based是无能为力的？][value-based]  
[强化学习，DPG是首次处理连续动作空间的论文吗，PG本身还只是输出动作而不是连续动作对吧？][DPG_PG]  
[深度强化学习（六）：连续动作空间的问题][Link 4]

策略迭代算法包括策略评估和策略改进两个步骤。  
策略评估：给定策略，通过数值迭代算法不断计算该策略下的值函数，直至收敛。  
策略改进：利用收敛的值函数和贪婪策略得到新的策略；

几个概念：  
对于REINFORCE方法，[链接][Link 5]  
1、如果采用均值方差的方式则为随机性策略，如果对输出分布采样，则为on-policy的方法；如果行为策略和评估策略不同则为off-policy的方法（需要重要性权重）。  
2、如果采用输出行为值的方式则为确定性策略，由于确定性策略无法采样，因此需要用off-policy的方法解决探索问题。  
3、上述两种方法前一种可以添加AC结构，后一种由于使用到q值网络，必须是AC结构。

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70]: /images/20221124/5726a6cfca714c3ba14e692ce7aca825.png
[Link 1]: https://zhuanlan.zhihu.com/sharerl
[20200330113509311.png]: /images/20221124/b8fe6ae0508344c8a4f44e5c7fa754c6.png
[20200330113713587.png]: /images/20221124/7ad6c64c2feb479d9cc7d6369581bcca.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70 1]: /images/20221124/d3ffc6ea883e4cce95f71529ebe20f80.png
[20200330113852713.png]: /images/20221124/2244214d6f21493a9c9ae3a331de5976.png
[20200330114639408.png]: /images/20221124/ebd1363ba4c6490386377f0318487cbb.png
[20200330114744510.png]: /images/20221124/bac507affc3847e380d16b0d41a04d05.png
[20200330114856489.png]: /images/20221124/e208d0e6fe65497d99b6d3f0371c07df.png
[20200330115235990.png]: /images/20221124/5ab6556843114444bb54e8f063689860.png
[20200330115206646.png]: /images/20221124/4f6a673f707e46378a3d9cee52015864.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2MjM0NjEz_size_16_color_FFFFFF_t_70 2]: /images/20221124/df4a5686313c4ff392eee72c2fd30d1e.png
[20200406155813370.png]: /images/20221124/061b3e16ab6c4041af896fb29c42c60b.png
[2020040615583168.png]: /images/20221124/8bc47b8a681f4c31ab724863ad837f4d.png
[20200406155850721.png]: /images/20221124/fa4485df101d43f0a78eefd2b89fa3b2.png
[20200406155914913.png]: /images/20221124/b36a312bc932479887663872a22c16c4.png
[20200330120050435.png]: /images/20221124/9af83131c7da4bee82500d5e4bb5ab2e.png
[20200330120631848.png]: /images/20221124/86d87759052b49feb423f1cee62d1e36.png
[20200330123929579.png]: /images/20221124/7354d14517474ab68edfd72d6eefd04b.png
[NLP]: https://www.jianshu.com/p/3669007cd512
[Link 2]: https://zhuanlan.zhihu.com/c_1186982555915599872
[reward]: https://www.zhihu.com/question/277172900
[The reward shaping of RL]: https://zhuanlan.zhihu.com/p/56425081
[reward 1]: https://www.jianshu.com/p/86e76702378f
[Link 3]: https://www.zhihu.com/question/359063493
[7_]: https://zhuanlan.zhihu.com/p/99901400
[value-based]: https://www.zhihu.com/question/269372499
[DPG_PG]: https://www.zhihu.com/question/346158593/answer/965277866
[Link 4]: https://www.jianshu.com/p/a8608c98adc0
[Link 5]: https://zhuanlan.zhihu.com/p/26441204