数学联邦政治世界观
超小超大

空间模型

An available state space model for modeling long sequences

Paper: Efficiently Modeling Long Sequences with Structured State Spaces

Motivation and current problem

• A central problem in sequence modeling is efficiently handling data that contains long-range dependencies (LRDs). 一般要求上万步(16k),现在能做到几千步就不错了。

• 用special matrix(HIPPO)武装起来的latent space model本来具有长时间记忆的能力,但在计算上不可行:O(N 2L) operations and O(N L) space。 尽管依据经典linear algebra的降维算法被提出了,但是在数值上不稳定:A的条件数比较大。

• 希望有一个general-purpose sequence model: 现在的model总是针对一个particular domain(images, audio,text, time-series),处理一个narrow range of problems ( efficient training,fast generation, handling irregularly sampled data).这种现状的原因是这些模型想要高效,就需要domain-specific preprocessing,inductive biases, and architectures.

Contribution

1. S4解决了SSM模型过往的computational neck;在speed和memory overhead 上都达到了efficient transformer的水平;

2. 在LRD任务上成为SOTA,特别地,第一次解决了长达16k,涉及到图像空间推理的Path-X问题;

3. 除了LRD任务,S4具备成为general-purpose sequence model的潜力:

具有efficient training, fast generation, handling irregularly sampled data(比如说调整speech的采样频率)的多种功能

在不调整结构的情况下,能handle diverse domains:surpasses Speech CNNs on speech classification, outperforms the specialized Informer model on time-series forecasting problems, and matches a 2-D ResNet on sequential CIFAR with over 90% accuracy.

Preliminary

1.SSM Model

The state space model is defined by the sinple equation (1). lt maps a 1-D input signal u(t) to an H-D latent state x(t) before projecting to a 1-D output signal y(t).

x'(t)=Ax(t)+Bu(t)

y(t)=Cx(t)+Du(t)

2.Hippo非常重要!!!

3.Discretization

To discretize the continuous-time SSM,we follow prior work in using the bilinear method [43],which converts the state matrix A into an approximation ˉA. The discrete SSM is

xₖ=ˉAxₖ₋₁+ˉBuₖ ˉA=(l – Δ/2 · A)⁻¹ (l+Δ/2 · A)

yₖ=ˉCxₖ ˉB=(l – Δ/2 · A)⁻¹ΔB ˉC=C.

Solution:

• 把Hippo matrix A 分解成normal matrix+ low-rank

• 序列模型并行可以转化为一个卷积运算,但卷积核需要处理一个连乘。如果A diagonal,那一切好说;但他现在不是,所以转化成为Normal Plus Low-Rank。处理NPLR的幂需要用到三个技巧

• 用cauchy kernel来处理对角阵求逆的问题;

• 用Woodbury identity把NPLR变成对角阵的问题;

• 计算截断的generating function,再用inverse FFT变回来。

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

梦境荒原 连载中
梦境荒原
清静的
(真·佛更,可能会删稿大改)你的确是正确的,你曾让我的生活如此梦幻。然而,当美好的事物都在悄然流逝,无论是在黑夜,还是在白天,无论是有声,还......
1.2万字8个月前
樱花谣 连载中
樱花谣
此夜风书行
春末的樱花雨里,血色琴弦拨动了尘封八十年的时空密码。音乐系少女沈若棠从未想过,外婆临终前划在掌心的五线谱,会让她在樱花树下遇见虎口渗血的白衣......
4.7万字7个月前
入宗后,小师妹她强得可怕 连载中
入宗后,小师妹她强得可怕
小亭砸
【有cp,剧情日常向,天才流】【懒散戏精贵气少年vs少言少语清冷少女】季疏安自从进了天衍宗才发现人类的多样性。长相漂亮还戏精的剑音双修大师兄......
6.5万字6个月前
快穿之他们都心怀不轨 连载中
快穿之他们都心怀不轨
小小少年的你
【无系统+all女主+钓系美人万人迷+女主非圣母+修罗场预警+无雌竞+男全C+“原配”纯纯工具人+感情线居多+不喜勿入】(第一个世界略带古风......
8.8万字6个月前
我靠动物发家致富 连载中
我靠动物发家致富
厌生yan
顾染,一个成功驯服比格犬的英雄人物,至于她是怎么驯服的,当然是超能力啦,没开玩笑,她具有超能力可以和动物沟通,就这样她开了一家宠物店专门解答......
0.3万字5个月前
闻倾梨花满天下 连载中
闻倾梨花满天下
是黎苏a
【美强惨黑心汤圆×病娇腹黑小人鱼】你是梨花,我是为梨花而生的蝴蝶----闻倾世人只知闻倾名满天下,却不知他永远守候这一树梨花,只为等一人,但......
2.1万字4个月前