强化学习适合解决什么样的问题

淡淡的烟草味﹌ 2022-04-14 04:59 337阅读 0赞

问：强化学习解决的是什么样的问题？

答：“序列决策问题。”

面试官又问：“多臂老虎机只是一步，没有序列呀？”

…

上述问题和回答参考自：[再励学习面试真题][Link 1]

无论是在面试中，还是在实际的业务中，强化学习能够解决的问题、适合解决的问题都需要理解的非常深刻。

在上面提及的问题中，多臂老虎机其实可以看作一种特殊的强化学习问题：序列长度一直为1的强化学习。它在强化学习关键的三要素（状态，动作，奖惩）中，没有状态一项，也可以说，它当前的动作不会改变环境状态，亦或者说它的最优策略是全局的，只要找到了这个策略，那只要一直采取这个策略就可以保证最大的累计回报。具体来讲，就是找到了回报奖励最大的臂之后，一直摇这个臂就可以了。

强化学习适合解决的问题可以用下图来解释：

![图][v2-af4f9bc93c735a2023e9e5698ae0d19f_hd.jpg]

第一行是对应模型未知，需要通过学习逐渐的逼近真实的模型

第二行是对应模型已知，状态转移函数给定

第一列是对应当前的动作不会影响环境的状态

第二列是对应当前的动作会影响环境的状态，也即下一个状态会和上一个状态与采取的动作相关，服从马尔科夫性

左上对应了多臂老虎机问题，可以理解为序列长度为1的特殊强化学习问题；

左下对应了决策理论，可能是博弈论相关理论（不太了解，逃）

右上对应了强化学习问题，模型未给定，因此需要和环境交互来学习，动作影响环境状态因此需要连续的决策来最大化累计回报

右下对应了马尔科夫决策过程，模型给定，因此通过动态规划和贝尔曼方程即可得到最优策略

**因此，在强化学习中，模型输出的动作必须要能够改变环境的状态，并且模型能够获得环境的反馈（奖惩），同时状态应该是可重复到达的（可学习性）。** 当满足上述特征时，可以考虑用强化学习算法。

参考：

[增强学习在推荐系统有什么最新进展？ - 杨旭东的回答 - 知乎][- _ -]

[基于tensorflow的最简单的强化学习入门][tensorflow]

[Link 1]: https://zhuanlan.zhihu.com/p/33133828
[v2-af4f9bc93c735a2023e9e5698ae0d19f_hd.jpg]: /images/20220414/10a5891ea37b4493905f5c3e96181862.png
[- _ -]: https://www.zhihu.com/question/57388498/answer/378362457
[tensorflow]: https://zhuanlan.zhihu.com/p/26075668

发表评论取消回复

表情：

评论列表（有 0 条评论，337人围观）

还没有评论，来说两句吧...

相关阅读

相关 HashMap什么样的类适合作为键？

文章目录问题描述问题思路问题答案问题描述 HashMap什么样的类适合作为键？下滑查看问题答案问题思路

妖狐艹你老母/ 2024年02月19日 08:15/ 0 赞/ 2 阅读

相关什么样的项目适合docker部署，docker应用场景

`docker官网上说明了docker的典型场景：` 1. `使应用的打包与部署自动化` 2. `创建轻量、私密的PAAS环境` 3. `实现自动化测试和持续的集成/部

Myth丶恋晨/ 2023年02月25日 11:20/ 0 赞/ 16 阅读

相关强化学习6

1 关键词 DDPG(Deep Deterministic Policy Gradient)：在连续控制领域经典的RL算法，是DQN在处理连续动作空间的一个扩充。

女爷i/ 2022年12月19日 15:25/ 0 赞/ 155 阅读

相关强化学习5

Sparse Reward and Imitation Learning 1 关键词 reward shaping：在我们的agent与environmen

怼烎@/ 2022年12月19日 06:23/ 0 赞/ 173 阅读

相关什么样的人根本不适合学IT？

所有人对程序员都有个共同认知：起点低，薪资高，福利好，嫁人就嫁程序员。不可否认，很多人羡慕程序员除了他们有一个不错的收入外，还觉得在科技是第一生产力的今天，一技傍身能让他们走南

偏执的太偏执、/ 2022年09月04日 00:40/ 0 赞/ 188 阅读

相关什么样的自学Java网站才适合学习者？

前言有很多Java学习者常常问我一些在学习Java过程中遇到的问题，我发现很多问题总是卡在该知识点的概念层面，比如：一个多线程的程序这样加锁对不对？什么是原子性？这个

亦凉/ 2022年08月31日 09:54/ 0 赞/ 1 阅读

相关什么样的项目适合自动化测试

虽然，在你拿到这本书时已经对要测试的项目做了一些分析和考量，但笔者还是有必要在这里啰嗦一下不是所有项目有适合实施自动化测试的，以免读者对项目实施自动化过程中发现困难重重，浪费了

小鱼儿/ 2022年08月04日 14:51/ 0 赞/ 209 阅读

相关强化学习：Q-学习

这篇教程通过简单且易于理解的实例介绍了Q-学习的概念知识，例子描述了一个智能体通过非监督学习的方法对未知的环境进行学习。假设我们的楼层内共有5个房间，房间之间通过一道门相

迈不过友情╰/ 2022年05月22日 23:07/ 0 赞/ 349 阅读

相关强化学习适合解决什么样的问题

问：强化学习解决的是什么样的问题？答：“序列决策问题。” 面试官又问：“多臂老虎机只是一步，没有序列呀？” … 上述问题和回答参考自：[再励学习面试真题][Link

淡淡的烟草味﹌/ 2022年04月14日 04:59/ 0 赞/ 338 阅读

相关逆向强化学习

摘录自：[https://blog.csdn.net/philthinker/article/details/79778271][https_blog.csdn.net_phi

不念不忘少年蓝@/ 2022年01月21日 09:07/ 0 赞/ 358 阅读