近端策略优化深度强化学习算法

刺骨的言语ヽ痛彻心扉 2022-10-31 15:49 224阅读 0赞

PPO：Proximal Policy Optimization Algorithms，其优化的核心目标是：

ppo paper

策略梯度

以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标：

策略梯度Policy Gradoent的相关推导：

openai spinningup

重要性采样

通过从一个已知的分布中采样来估计另一个分布。在PPO中，π\_old是π的一个近似分布，我们希望学习的策略π在π\_old的基础上稳步学习，两者差距不能太大；于是我们从π\_old的分布中采样，以π/π\_old的作为权重。一个不严谨的理解是差值为0或比值为1都表示两个变量一致。我们的目的就是期望π在π\_old的附近学习。

取R(τ)为优势函数At，可以从每个t为粒度来重新考查PG，在此基础上对π\_old进行重要性采样，最终结果为：

KL散度

KL散度即两个分布的相对熵H\_p(Q) - H(P)：使用不正确的分布Q代替真实分布P时所产生的额外代价。只有当两个分布一致时，KL散度为0，否则总是正的。在PPO中，KL散度用来衡量policy π与π\_old的偏离程度，期望两者是接近的。

koller pgm

模型结构

当action是连续动作空间时，policy π网络学习的是分布的参数mean和vars；当是离散的时候，是其多项式分布。

与off-policy学习DQN的Target Network网络相似，包含一个策略“目标”网络π\_old，在每次采集完数据即学习前，π网络把参数同步至π\_old。

损失函数

policy π 网络和 Value网络是分开的，分别优化两个网络的目标函数。

π的目标函数：

ppo paper

注意优势函数A是基于π\_old的。KL散度以惩罚项与优势函数加在一起，系数根据KL的大小调整。

Value的损失函数：一般的state Value残差即可。

openai spinningup

学习过程

可以通过多个actor实现并行采集数据，π\_old指的是采集数据的policy，学习优化可以多次使用数据，但π\_old不变。采样数据的action通过π\_old的分布参数决定的分布上采样；优势函数可以是任何一种近似，比如TD Residual：R(s\_t, a\_t) + V(s\_t+1) - V(s)。

ppo paper

总结

PPO是一种基于策略梯度优化的、面向连续或离散动作空间的on-policy深度强化学习算法。

发表评论取消回复

表情：

评论列表（有 0 条评论，224人围观）

还没有评论，来说两句吧...

相关阅读

相关深度学习基础-优化算法详解

前言所谓深度神经网络的优化算法，即用来更新神经网络参数，并使损失函数最小化的算法。优化算法对于深度学习非常重要，如果说网络参数初始化（模型迭代的初始点）能够决定模型是否

淡淡的烟草味﹌/ 2024年03月16日 15:40/ 0 赞/ 61 阅读

相关深度强化学习(DRL 2) - 强化学习环境Gym

目录 [一、选择框架][Link 1] [二、认识Gym][Gym] [三、从代码开始][Link 2] 一、选择框架 R

布满荆棘的人生/ 2024年02月23日 07:55/ 0 赞/ 68 阅读

相关什么是深度学习、强化学习

今天在学习过程中碰到一个自己不懂的常识：Reinforcement Learing（强化学习）之前在入门机器学习过程中单纯的知道只有深度学习，今天看论文的时候发现还存在强化

﹏ヽ暗。殇╰゛Y/ 2022年12月13日 01:52/ 0 赞/ 282 阅读

相关近端策略优化深度强化学习算法

PPO：Proximal Policy Optimization Algorithms，其优化的核心目标是： ppo paper 策略梯度以下是马尔可夫决策过程MDP的

刺骨的言语ヽ痛彻心扉/ 2022年10月31日 15:49/ 0 赞/ 225 阅读

相关深度强化学习 ( DQN ) 初探

文章来源： https://www.qcloud.com/community/article/549802?fromSource=gwzcw.114127.114127.114

╰半夏微凉°/ 2022年06月06日 00:13/ 0 赞/ 418 阅读

相关强化学习-DPPO算法

先占位，后补充 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-lear

拼搏现实的明天。/ 2022年05月25日 07:19/ 0 赞/ 384 阅读

相关深度强化学习剖析

深度强化学习剖析深度强化学习是深度学习与强化学习的结合，具体来说是结合了深度学习的结构和强化学习的思想： ![这里写图片描述][70] 也可以说是将深度学习的感知能

我会带着你远行/ 2022年05月17日 13:36/ 0 赞/ 360 阅读

相关深度学习中的优化算法

梯度下降沿着整个训练集的梯度方向下降。可以使用随机梯度下降很大程度地加速，沿着随机挑选的小批量数据的梯度下降。批量算法和小批量算法使用小批量的原因 n个

朱雀/ 2022年05月09日 05:18/ 0 赞/ 418 阅读

相关深度强化学习概述

文章目录深度强化学习概述分类发展传统强化学习 Q-learn

￡神魔★判官ぃ/ 2022年02月23日 13:28/ 0 赞/ 533 阅读

相关强化学习八、策略梯度

到目前为止，前面分享的从MDP到DQN都是值函数的方法，值函数方法的思路是先通过策略评估和策略改善两个步骤优化值函数，然后通过最优的值函数来导出最优的策略，此时的最优策略是贪婪

た入场券/ 2021年09月25日 09:22/ 0 赞/ 426 阅读