数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

三世奇缘——第一世:人间传奇 连载中
三世奇缘——第一世:人间传奇
Aot
她,第一世21世纪杀手NO.1;第二世人见人怕的女魔头;第三世的她又是什么?又会创造什么奇迹?他,神界十重天的太子,当他下凡历劫遇见她时会擦......
0.4万字9个月前
浮生异界 连载中
浮生异界
132***790_8440181711
女主拥有无上力量被异界的邪恶组织觊觎及追杀,神界的男主历劫下凡与女主相识相知相爱,不成想女主正是男主的生死劫,最后双双殒命
0.5万字4个月前
大我七岁的邻居小叔成了我的老公 连载中
大我七岁的邻居小叔成了我的老公
198***310_9541083763
女主是名小说漫画家,男主是国外回来创业的高冷但不霸道的总裁,两人从小是邻居,因男主是邻居爷爷的老来得子,又比女主年长七岁,按辈分成了女主的小......
0.4万字3个月前
寂暗梦回 连载中
寂暗梦回
黎池念
你觉得你现在处的世界是真实的,还是在一场游戏中?亲爱的玩家,你不觉得现在的生活太无趣了吗?和我一起来参加这场有趣的游戏吧~
8.6万字3个月前
崔十八:雾里寻他 连载中
崔十八:雾里寻他
筱柚凝
私设私设私设!!!!介意的宝子勿扰不要发到平台之外一旦发现立即下架!!!听潮阁·礼的歌手✖️知名的主持人温柔体贴的崔十八✖️优雅但娇气的陆郁......
1.8万字1个月前
定律之章:终 连载中
定律之章:终
天上雾摘星
在几十年前,一个名叫深渊的无底洞被众人发现,在当发现深渊内有许多奇珍异宝,和多种不明生物时,人们在深渊不远的区域内,建造了深渊基地。招收人们......
1.4万字4周前