当前位置:网站首页>康考迪亚大学|图卷积循环网络用于强化学习中的奖励生成
康考迪亚大学|图卷积循环网络用于强化学习中的奖励生成
2022-06-22 18:32:00 【智源社区】
【标题】Graph Convolutional Recurrent Networks for Reward Shaping in Reinforcement Learning
【作者团队】Hani Sami, Jamal Bentahar, Azzam Mourad
【发表日期】2022.6.18
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522006442
【推荐理由】在本文中,作者考虑了强化学习 (RL) 中的低速收敛问题,提出了一种新的奖励生成方案,它结合了 (1) 图卷积循环网络 (GCRN)、(2) 增强型 Krylov 和 (3) 前瞻建议以形成潜在函数。作者提出了一种 GCRN 架构,它结合了图卷积网络 (GCN) 来捕获空间依赖关系和双向门控循环单元 (Bi-GRU) 来解决时间依赖关系。作者对 GCRN 损失函数的定义结合了隐马尔可夫模型 (HMM) 的消息传递技术。由于环境的转移矩阵难以计算,使用 Krylov 基来估计转移矩阵,其性能优于现有的近似基。与仅依赖状态来执行奖励塑造的现有潜在功能不同,作者通过前瞻建议机制同时使用状态和动作来产生更精确的建议。各项测试表明,本文的解决方案在学习速度方面优于当前最先进的解决方案,同时获得更高的奖励。
边栏推荐
- MySQL数据库DQL查询操作
- 0.0 - Solidworks如何才能卸载干净?
- 0816 shortcomings of Feida (improvement direction)
- Mini web framework: template replacement and routing list function development | dark horse programmer
- 元宇宙怎么就这么火,市场喊起来的10万亿是吹嘘还是真相?
- Array objects can be compared one by one (the original data with the same index and ID will be retained, and the data not in the original array will be added from the default list)
- what? Homekit, Micah, aqara and other ecosystems can also be linked with tmall elf ecology through zhiting?
- 误用append案例一则
- 取zip包中的文件名
- 插槽里如何判断text为数组
猜你喜欢

Agent model of structured model

第一章 力扣热题100道(1-5)

what? Homekit, Micah, aqara and other ecosystems can also be linked with tmall elf ecology through zhiting?

Openpnp debugging ------ 0816 Feida Tui 0402 taping

0816 shortcomings of Feida (improvement direction)

Focal and global knowledge distillation for detectors

1.4----- PCB design? (circuit design) determination scheme

ABAQUS 使用RSG绘制插件初体验

matplotlib设置坐标轴刻度间隔

C #, introductory tutorial -- a little knowledge about function parameter ref and source program
随机推荐
0.1----- process of drawing PCB with AD
知识蒸馏之Focal and Global Knowledge Distillation for Detectors
lua--迭代器、模块、元表
AB打包有的Shader没有触发IPreprocessShaders的回调
MySQL数据库DQL查询操作
Teachers, I want to ask you a question. I run flinkcdc locally to synchronize MySQL data. The timestamp field parsing is normal,
Methods for converting one-dimensional data (sequence) into two-dimensional data (image) GAFS, MTF, recurrence plot, STFT
Interface development component devaxpress asp Net core v21.2 - UI component enhancements
编译报错:/usr/bin/ld: /usr/local/lib/libgflags.a(gflags.cc.o): relocation R_X86_64_32S against `.rodata‘
51万奖池邀你参战!第二届阿里云ECS CloudBuild开发者大赛来袭
拓扑排序
取zip包中的文件名
实验4 NoSQL和关系数据库的操作比较
NRF51822外设学习
The array objects are filled in one by one according to the ID (fill Arr1 into arr2)
将一维数据(序列)转化为二维数据(图像)的方法汇总GAFS, MTF, Recurrence plot,STFT
How to choose smart home? Take a look at this shopping guide
详解openGauss多线程架构启动过程
记可视化项目代码设计的心路历程以及理解
Follow up course supplement of little turtle teacher "take you to learn C and take you to fly"