数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

杂篇论(随笔) 连载中
杂篇论(随笔)
又是一年冬_
时不时的构思,更新全看心情,是的,我就是这么懒(划掉)随意~
0.8万字9个月前
深妖姬之三面妲己 连载中
深妖姬之三面妲己
都值得我前进
婠音妲曦,她是被三面妲己重生转世后尚未形成人形的一只九尾狐女妖的妖体给附体的一位銀朝邻国婠音国公主
0.1万字9个月前
跨界仙缘之苍穹之花 连载中
跨界仙缘之苍穹之花
小铃铛♡小蝴蝶
神幻小说,神冥两界的人不能在一起,他们为了彼此不惜付出生命代价…
5.5万字7个月前
cult:最后是亲哥哥 连载中
cult:最后是亲哥哥
琼Y
暴力复仇,屠亲,恐怖继续。爱是在谎言和誓言之间徘徊的。把那个同学推下悬崖只是Amy的第一步,亲爱的哥哥Bill,你终于回到这个小镇上来了。我......
8.9万字7个月前
语音厅:双A组合 连载中
语音厅:双A组合
严婉歆
[已签约]双男主+语音厅+双A组合+全虚构
4.3万字6个月前
爱无情心难测 连载中
爱无情心难测
人生很短愿中考顺利
小小故事~/Rena文社/故事起源录:严秋:“天界我一生热爱的地方,虽然忘记过去的友情,但我依然热爱…不悔与双生相识助天界繁盛,愿守天界直至......
4.4万字6个月前