强化学习论文汇总

庞先生 · 发表于 2022-10-10 06:57:15

归纳一下目前读到强化学习论文所涉及的话题
一、Model-free RL
主要目标是Stable和Data Efficient，另外希望能够支持High Dimensional Input、支持continuous action space、支持并行计算。

二、Model-based RL
Model-based的优势主要在Data Efficient上面，主要探讨model如何建模、建模之后如何学习或者规划。

三、Meta RL
主要讨论如何从一组任务里面学习到prior，使得拥有meta的算法能够快速在新的环境里面适应和学习。与之相关的话题有Few-shot Learning、Transfer Learning。

四、Hierarchical RL
主要是想解决动作空间、观察空间超复杂，并且奖励稀疏的复杂任务。原本任务是从北京到广州，HRL就是让一层策略发出“到北京西站-上火车-等待-下火车”的指令，下一层策略根据上一层发出“上火车”的指令，发出更为具体的“抬腿-迈腿”这样的指令。相关的问题，如何定义sub-goal？如何让上一层学习到输出合适的sub-goal？如何制定合适的reward让下一层学习到sub-goal？

另外附上我自己实现的部分RL算法，来帮助大家学习。
其优势在于

每个算法装在一个文件里面，没有复杂的依赖，直接就能跑；
也没有过多的wrapper，直接是最简单的实现方法，目的是理解算法；
效果达不到原文的水平，但是都确保能收敛；

听说百度投资了逍遥，惶恐中。贴出一个可以把整个专栏下载为 PDF 的代码。
import urllib.request
import shutil
import json
import time
import os

def download_articles(p_numbers, p_titles, prefix, output_dir):
for p, t in zip(p_numbers, p_titles):
      print(&#39;processing {}-{}&#39;.format(p, t))
      ret = os.system(&#39;wget -P {} -E -H -k -p https://zhuanlan.逍遥.com/p/{}&#39;.format(prefix, p))
      if ret != 0:
         raise ValueError(&#39;wget error! p={}&#39;.format(p))

      html_file = os.path.join(prefix, &#39;zhuanlan.逍遥.com&#39;, &#39;p&#39;, &#39;{}.html&#39;.format(p))
      with open(html_file, &#39;r+&#39;) as f:
         html_string = f.read()
         # wkhtmltopdf ignores images wrapped by noscript - weird
         html_string = html_string.replace(&#39;<noscript>&#39;, &#39;&#39;)
         html_string = html_string.replace(&#39;</noscript>&#39;, &#39;&#39;)
         f.seek(0)
         f.write(html_string)
         f.truncate()

      output_file = os.path.join(output_dir, &#39;{}.pdf&#39;.format(p))
      ret = os.system(&#39;wkhtmltopdf {} {}&#39;.format(html_file, output_file))
      if ret != 0:
         raise ValueError(&#39;wkhtmltopdf error! p={}&#39;.format(p))

def get_p_numbers(zhuanlan):
p_numbers = []
p_titles = []
offset = 0
while True:
      url = &#39;https://zhuanlan.逍遥.com/api/columns/{}/articles?include=data&limit=100&offset={}&#39;.format(zhuanlan, offset)
      html_string = urllib.request.urlopen(url).read()
      content = json.loads(html_string)
      p_numbers.extend([item[&#39;id&#39;] for item in content[&#39;data&#39;]])
      p_titles.extend([item[&#39;title&#39;] for item in content[&#39;data&#39;]])
      if len(content[&#39;data&#39;]) < 100:
         break
      else:
         offset += 100

return p_numbers, p_titles

if __name__ == &#39;__main__&#39;:
zhuanlan = &#39;reinforcementlearning&#39;
prefix = &#39;working_dir&#39;
output_dir = &#39;output_dir&#39;

shutil.rmtree(prefix)
os.makedirs(prefix, exist_ok=True)
os.makedirs(output_dir, exist_ok=True)

p_numbers, p_titles = get_p_numbers(zhuanlan)
download_articles(p_numbers, p_titles, prefix, output_dir)新入坑的同学们，可以看看这个领域的顶会发表的文章都在做什么方向，这有助于大家快速搞清楚这个领域的最新动态。下表列出了最新的 ICLR 2020 接收论文在强化学习方向的论文。

欢迎私信我补充~

文章来源于网络，如有侵权，请联系我们小二删除，どうもで～す！

文彬 · 发表于 2022-10-10 06:59:58

您好！我也是刚入门强化这个领域的初学者，我想问一下作者你看的文章是怎么选择的，是顺着什么顺序来读的这些论文，估计我还是个科研新手现在还没有摸到门路找那些论文要看。但是我看到你这个顺序显然是由浅入深的，很佩服，希望能指点一二。

伊翔御风 · 发表于 2022-10-10 07:00:23

个人经验是读文献大致顺序是1）先读领域内的经典书籍（对于强化学习来说就是Sutton的那本书），这样能具备阅读文献的基础知识；2）再去读每个子领域的一些高引用文章，这样对于大领域有个比较好的了解，在此过程中能找到自己感兴趣的方向；3）找一个感兴趣的方向再仔细调研小方向内的文献，感兴趣的方向也可以是想要解决一个实际问题，然后有针对性地去找可能能解决问题的方法。
另外，有人也建议过我直接跳过第一个步骤，这样能更快接触到前沿，但我感觉全面的基础理解还是很有必要的，这些是从文献里面得不到的。
目前我阅读的文章主要来自于各种公众号推荐、导师和组内同学推荐以及网友推荐，少部分来自于已阅读文献中的引用。

美丽人生youme · 发表于 2022-10-10 07:01:42

谢谢作者，你说的第一点sutton那本书，我已经看过很多了，虽然没看完，确实很费时间。我看你的阅读列表是以强化方法为背景对强化进行的优化或者改进。我感觉这个方向很偏理论，你有没有想过往应用上做。在应用上发表一些文章，我现在也是科研刚起步，正在寻找一个比较适合的课题。现在看了一些文章，但是强化在每个AI的子领域都有应用，现在感觉摸不到头脑。对课题的选择上你现在打算往什么方向做。

miss丶小凯 · 发表于 2022-10-10 07:04:31

目前我主要考虑做算法相关研究，应用方向考虑和金融相关，可能由于这个方向不是很开放或者由于这个方向本身比较困难，强化学习在金融上的应用并不多。找课题的话选择一些新应用场景做起来会更容易一些，自己找课题本身就不简单，再多读多看多想吧。共勉！

减肥中 · 发表于 2022-10-10 07:07:59

感谢

叶华东 · 发表于 2022-10-10 07:08:27

博主加油鸭，nlp人没时间读论文就靠博主了解rl动向了，加油

0家国天下0 · 发表于 2022-10-10 07:11:13

试问老兄找到方向了吗？

曹操是我爹 · 发表于 2022-10-10 07:12:14

请问多智能体的强化学习算法有哪些，哪一种多智能体强化学习算法适用于类似围棋的回合制博弈（回合制的随机博弈纳什均衡一般如何用多智能体强化学习算法求解）

hysbd · 发表于 2022-10-10 07:14:07

您好，我想问下，怎么获得ICRL2021强化学习方面收录的关于您文章中列出的2020版的列表
[思考]