当前位置：网站首页>《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆离线元强化学习

《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆离线元强化学习

2022-06-22 20:34:00 【智源社区】

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第50期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了14篇强化学习领域的相关论文，主要介绍了基于半集中式逻辑的 MARL 奖励形成方法以扩展到扩展到多智能体强化学习、提出了双手灵巧手基准测试（Bi-Dexthands）模拟器以实现人类水平的双手灵巧操作、通过精确惩罚优化方法评估安全自动驾驶、提出了一种 Bootstrapped Transformer 新算法结合自举思想以推动离线 RL 训练、通过强化知识感知推理可解释推荐(MBKR) 将微行为和 KG 结合到强化学习进行可解释推荐以研究用户的微观行为、介绍了基于区块链授的联合深度actor-critic任务卸载算法来解决安全和低延迟的计算卸载问题、即介绍了 GCRN 架构结合图卷积网络 (GCN) 来捕获空间依赖关系和双向门控循环单元 (Bi-GRU) 以解决时间依赖关系等。

标题：Fast Population-Based Reinforcement Learning on a Single Machine（InstaDeep Ltd：Arthur Flajolet | 单机上基于群体的快速强化学习）

简介：训练智能体群体在强化学习中表现出巨大的潜力，可以稳定训练、提高探索和渐近性能，并生成多样化的解决方案。然而，实践者通常不会考虑基于人群的训练，因为它被认为要么速度太慢（按顺序实施），要么计算成本高（如果代理在独立的加速器上并行训练）。本文比较了实现并回顾了以前的研究，以表明编译和矢量化的明智使用允许在具有一个加速器的单台机器上执行基于群体的训练，与训练单个代理相比，开销最小。研究还表明，当提供少量加速器时，该协议扩展到用于超参数调整等应用的大型群体。研究者希望该研究和代码的公开发布将鼓励从业者更频繁地使用基于人群的学习来进行相同的研究和应用。

当前位置：网站首页>《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆ 离线元强化学习

《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆ 离线元强化学习

关于周刊：

关于周刊订阅：

论文推荐

研究综述

边栏推荐

猜你喜欢

随机推荐

当前位置：网站首页>《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆离线元强化学习

《强化学习周刊》第50期：SafeRL-Kit、GMI-DRL、RP-SDRL ＆离线元强化学习