搜索
热搜: 活动
Hi~登录注册
查看: 1595|回复: 12

强化学习论文汇总

[复制链接]

1万

主题

1万

帖子

2万

积分

商家A

Rank: 5Rank: 5

积分
27742
发表于 2022-10-10 06:57:15 | 显示全部楼层 |阅读模式 来自: 中国北京
归纳一下目前读到强化学习论文所涉及的话题
一、Model-free RL
主要目标是Stable和Data Efficient,另外希望能够支持High Dimensional Input、支持continuous action space、支持并行计算。

二、Model-based  RL
Model-based的优势主要在Data Efficient上面,主要探讨model如何建模、建模之后如何学习或者规划。

三、Meta RL
主要讨论如何从一组任务里面学习到prior,使得拥有meta的算法能够快速在新的环境里面适应和学习。与之相关的话题有Few-shot Learning、Transfer Learning。

四、Hierarchical RL
主要是想解决动作空间、观察空间超复杂,并且奖励稀疏的复杂任务。原本任务是从北京到广州,HRL就是让一层策略发出“到北京西站-上火车-等待-下火车”的指令,下一层策略根据上一层发出“上火车”的指令,发出更为具体的“抬腿-迈腿”这样的指令。相关的问题,如何定义sub-goal?如何让上一层学习到输出合适的sub-goal?如何制定合适的reward让下一层学习到sub-goal?


另外附上我自己实现的部分RL算法,来帮助大家学习。
其优势在于

  • 每个算法装在一个文件里面,没有复杂的依赖,直接就能跑;
  • 也没有过多的wrapper,直接是最简单的实现方法,目的是理解算法;
  • 效果达不到原文的水平,但是都确保能收敛;
听说百度投资了逍遥,惶恐中。贴出一个可以把整个专栏下载为 PDF 的代码。
import urllib.request
import shutil
import json
import time
import os

def download_articles(p_numbers, p_titles, prefix, output_dir):
    for p, t in zip(p_numbers, p_titles):
        print('processing {}-{}'.format(p, t))
        ret = os.system('wget -P {} -E -H -k -p https://zhuanlan.逍遥.com/p/{}'.format(prefix, p))
        if ret != 0:
            raise ValueError('wget error! p={}'.format(p))

        html_file = os.path.join(prefix, 'zhuanlan.逍遥.com', 'p', '{}.html'.format(p))
        with open(html_file, 'r+') as f:
            html_string = f.read()
            # wkhtmltopdf ignores images wrapped by noscript - weird
            html_string = html_string.replace('<noscript>', '')
            html_string = html_string.replace('</noscript>', '')
            f.seek(0)
            f.write(html_string)
            f.truncate()

        output_file = os.path.join(output_dir, '{}.pdf'.format(p))
        ret = os.system('wkhtmltopdf {} {}'.format(html_file, output_file))
        if ret != 0:
            raise ValueError('wkhtmltopdf error! p={}'.format(p))
            
def get_p_numbers(zhuanlan):
    p_numbers = []
    p_titles = []
    offset = 0
    while True:
        url = 'https://zhuanlan.逍遥.com/api/columns/{}/articles?include=data&limit=100&offset={}'.format(zhuanlan, offset)
        html_string = urllib.request.urlopen(url).read()
        content = json.loads(html_string)
        p_numbers.extend([item['id'] for item in content['data']])
        p_titles.extend([item['title'] for item in content['data']])
        if len(content['data']) < 100:
            break
        else:
            offset += 100
            
    return p_numbers, p_titles

if __name__ == '__main__':
    zhuanlan = 'reinforcementlearning'
    prefix = 'working_dir'
    output_dir = 'output_dir'

    shutil.rmtree(prefix)
    os.makedirs(prefix, exist_ok=True)
    os.makedirs(output_dir, exist_ok=True)

    p_numbers, p_titles = get_p_numbers(zhuanlan)
    download_articles(p_numbers, p_titles, prefix, output_dir)新入坑的同学们,可以看看这个领域的顶会发表的文章都在做什么方向,这有助于大家快速搞清楚这个领域的最新动态。下表列出了最新的 ICLR 2020 接收论文在强化学习方向的论文。




欢迎私信我补充~

文章来源于网络,如有侵权,请联系我们小二删除,どうもで~す!
回复

使用道具 举报

0

主题

1818

帖子

3081

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3081
发表于 2022-10-10 06:59:58 | 显示全部楼层 来自: 中国北京
您好!我也是刚入门强化这个领域的初学者,我想问一下作者你看的文章是怎么选择的,是顺着什么顺序来读的这些论文,估计我还是个科研新手现在还没有摸到门路找那些论文要看。但是我看到你这个顺序显然是由浅入深的,很佩服,希望能指点一二。
回复

使用道具 举报

0

主题

1749

帖子

2934

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2934
发表于 2022-10-10 07:00:23 | 显示全部楼层 来自: 中国
个人经验是读文献大致顺序是1)先读领域内的经典书籍(对于强化学习来说就是Sutton的那本书),这样能具备阅读文献的基础知识;2)再去读每个子领域的一些高引用文章,这样对于大领域有个比较好的了解,在此过程中能找到自己感兴趣的方向;3)找一个感兴趣的方向再仔细调研小方向内的文献,感兴趣的方向也可以是想要解决一个实际问题,然后有针对性地去找可能能解决问题的方法。
另外,有人也建议过我直接跳过第一个步骤,这样能更快接触到前沿,但我感觉全面的基础理解还是很有必要的,这些是从文献里面得不到的。
目前我阅读的文章主要来自于各种公众号推荐、导师和组内同学推荐以及网友推荐,少部分来自于已阅读文献中的引用。
回复

使用道具 举报

0

主题

1935

帖子

3380

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3380
发表于 2022-10-10 07:01:42 | 显示全部楼层 来自: 中国北京
谢谢作者,你说的第一点sutton那本书,我已经看过很多了,虽然没看完,确实很费时间。我看你的阅读列表是以强化方法为背景对强化进行的优化或者改进。我感觉这个方向很偏理论,你有没有想过往应用上做。在应用上发表一些文章,我现在也是科研刚起步,正在寻找一个比较适合的课题。现在看了一些文章,但是强化在每个AI的子领域都有应用,现在感觉摸不到头脑。对课题的选择上你现在打算往什么方向做。
回复

使用道具 举报

0

主题

1758

帖子

2931

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2931
发表于 2022-10-10 07:04:31 | 显示全部楼层 来自: 中国香港
目前我主要考虑做算法相关研究,应用方向考虑和金融相关,可能由于这个方向不是很开放或者由于这个方向本身比较困难,强化学习在金融上的应用并不多。找课题的话选择一些新应用场景做起来会更容易一些,自己找课题本身就不简单,再多读多看多想吧。共勉!
回复

使用道具 举报

0

主题

1934

帖子

3713

积分

中学二

Rank: 10Rank: 10Rank: 10

积分
3713
发表于 2022-10-10 07:07:59 | 显示全部楼层 来自: 中国北京
感谢
回复

使用道具 举报

0

主题

1998

帖子

3705

积分

中学二

Rank: 10Rank: 10Rank: 10

积分
3705
发表于 2022-10-10 07:08:27 | 显示全部楼层 来自: 中国香港
博主加油鸭,nlp人没时间读论文就靠博主了解rl动向了,加油
回复

使用道具 举报

0

主题

1891

帖子

3283

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3283
发表于 2022-10-10 07:11:13 | 显示全部楼层 来自: 中国北京
试问老兄找到方向了吗?
回复

使用道具 举报

0

主题

1757

帖子

2903

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2903
发表于 2022-10-10 07:12:14 | 显示全部楼层 来自: 中国北京
请问多智能体的强化学习算法有哪些,哪一种多智能体强化学习算法适用于类似围棋的回合制博弈(回合制的随机博弈纳什均衡一般如何用多智能体强化学习算法求解)
回复

使用道具 举报

0

主题

1844

帖子

3205

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3205
发表于 2022-10-10 07:14:07 | 显示全部楼层 来自: 中国
您好,我想问下,怎么获得ICRL2021强化学习方面收录的关于您文章中列出的2020版的列表
[思考]
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表