数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

雅家:六大天王 连载中
雅家:六大天王
77小X
原创男主角女主角
4.0万字11个月前
书外的你我是天作之合 连载中
书外的你我是天作之合
璟秋竹
明月几时有?把酒问青天。你是暖阳,是我生命里不可缺失的光,你是早晨的太阳,明亮又耀眼。所以,谢谢你永远选择我。苏淮雪,不论书里书外。(双女主......
0.6万字10个月前
这个自然之灵,自由之子有点腹黑啊 连载中
这个自然之灵,自由之子有点腹黑啊
Y159***65764
**自然之女,自由之灵**她出生于晨曦的温暖,伴着鸟鸣的乐章,她是自然之女,身披阳光的衣裳。她的笑声,是风的低语,她的眼神,是星辰的闪亮。她......
6.9万字9个月前
樱花巷心动信号 连载中
樱花巷心动信号
二手口香糖
1.5万字6个月前
渊中有海,寒栀自来 连载中
渊中有海,寒栀自来
顾小海
渊中沉寂,却有白栀盛开;海自渊来,澈中有寒;在这富丽堂皇的宫殿之中,位于中央的宝座上,那个人缓缓说吧“栀栀,你终于回来了,可我只能在这等着你......
3.2万字5个月前
快穿:在副本里撩NPC 连载中
快穿:在副本里撩NPC
爱吃早茶
惊悚副本中,社畜被迫与邪神纠缠。废弃医院,人偶新娘……皆是跨越三千年的囚笼。当弑神者与邪神共坠数据洪流,是终结系统谎言,还是沉沦永恒心跳?
19.6万字2个月前