大模子雷同的高下文窗口,只需一半内存就能已毕,何况精度无损?
前苹果 ASIC 架构师 Nils Graef,和又名 UC 伯克利在读本科生全部提议了新的从容力机制Slim Attention。
它以圭臬多头从容力(MHA)为基准,对其中的 value 缓存处分过程进行了调遣,已毕了更少的内存占用。

具体来说,Slim Attention 既不错让KV 缓存大小减半,也不错在 KV 缓存大小不变的情况下让高下文翻倍,王人不会带来精度耗费。
此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2 倍。
网友评价,Slim Attention 诚然浅易,但却是一个很酷的主义。

还有 AI 创业者评讲明,这是一项首要冲破,可能重塑对模子考研和部署的见解。

K-Cache is All You Need
在圭臬的 MHA 机制当中,关于输入 X 和会过线性变换,经由三个投影矩阵 W_Q、W_K、W_V 取得 Q ( query ) 、K ( key ) 和 V ( value ) 三个矩阵。
在推理阶段,每个输入 token 盘算取得的 K 和 V 向量王人需要缓存起来,酿成 KV cache 供后续 token 盘算时使用。
Slim Attention 的中枢念念路是,应用 MHA 中 W_K 和 W_V 时常王人是方阵的性质,只存储 K 而不径直存储 V,然后及时应用 K 盘算出 V。

△原始 MHA(左)与蜕变版(右)对比
在考研阶段,Slim Attention 与圭臬 MHA 一样,会对输入 X 盘算 Q、K、V 三个矩阵,从容力盘算和梯度回传也与圭臬 MHA 统斡旋致。
在 W_K 可逆的前提下,Slim Attention 引入一个新的参数矩阵 W_KV:
W_KV = W_K^ ( -1 ) · W_V
据此,不错取得:
V = X · W_V = X · W_K · W_K^ ( -1 ) · W_V = K · W_KV
推理过程则主要分为两个阶段——提醒阶段(并行盘算)和生成阶段(自淡雅)。
提醒阶段与圭臬 MHA 一样,将输入的悉数 token 并行盘算 Q、K 矩阵,但不同的是,这里不径直盘算 V,而是将中间截止 K 缓存供后续使用。

生成阶段每个时分步生成一个新 token,伊始盘算该时分步的 Q 向量 q,然后基于 q 和之前时分步缓存的 K 矩阵,盘算从容力得(即 softmax 的输入)。
在 softmax 之前,Slim Attention 通过公式 V = K · W_KV 及时盘算 V 矩阵。具体有两种神气 :
径直盘算 V,然后将 softmax 截止与 V 相乘(矩阵乘法)取得从容力输出;
先将 softmax 截止与 K 相乘,然后再与 W_KV 相乘,当序列较永劫这种神气更高效。
剩余进程(残差合伙、前馈层等)与圭臬 MHA 一致,临了将面前步的 k 向量添加到 K 缓存中,供下一时分步使用。

总之,Slim Attention 是圭臬 MHA 的精准数学重写,因此与类似关节不同,可确保准确率不会下跌。
以此为前提,Slim Attention 已毕了 KV 缓存减半或高下文翻倍的效果。
前苹果架构师与 UC 伯克利本科奏效果
Slim Attention 的作家是 AI 初创公司 OpenMachine 的创举东说念主兼 CEO Nils Graef,以及 UC 伯克利在读本科生Andrew Wasielewski。
Nils 的主业是机器学习加快器的架构和假想,曾发表两篇 IEEE 期刊论文和 30 多项专利,援用次数最初 900 次。
创立 OpenMachine 前,Nils 在知名推理加快平台 Groq(从容不是马斯克的 Grok)担任芯片架构师。
更早的工夫,他先后担任过谷歌 ML 加快器架构 & 假想工程师和苹果 ASIC 架构师。

Andrew Wasielewski 是 UC 伯克利在读本科生,专科是物理和 EECs(电气工程与盘算机科学),展望将于来岁毕业。
把柄论文签字信息透露,Slim Attention 的使命是 Andrew 在 OpenMachine 完成的。

客岁 7 月,Nils 和 Andrew 还与其他东说念主合营,发表了一篇名为Flash normalization的论文,提议了一种更快的 RNS 归一化神气。

此外皮 Slim Attention 的致谢中还提到,艾伦施行室的 Dirk Groeneveld,以及 SGLang 三作谢志强,对其使命提供了成心征询;Transformer 作家之一、Character.AI 创举东说念主 Noam Shazeer 给出了积极反应。

论文地址:
https://arxiv.org/abs/2503.05840
参考领悟:
https://x.com/rohanpaul_ai/status/1901092052282339474体育游戏app平台
