强化学习一、基本原理与gym的使用

悠悠 2021-09-23 12:16 244阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,244人围观)

还没有评论,来说两句吧...

相关阅读

    相关 强化学习五、时间差分(

    之前已经分享过基于模型的动态规划方法(DP)和基于免模型的蒙特卡罗法(MC),DP方法解决了在MDP框架下环境已知的情况下求解值函数和策略,而MC是在不知道环境的情况,通过与环