
开云体育TPA对每个token作念动态的张量主张-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
新闻资讯
梦晨 发自 凹非寺量子位 | 公众号 QbitAI开云体育 新式留意力机制TPA,姚期智院士团队打造。 TPA对每个token作念动态的张量主张,不存储好意思满的静态KV,而是保留主张的版块,内存占用从简90%(概况更多),而不会捐躯性能。 论文中还认知了流行的MHA、MQA、GQA齐是TPA的极度情况,用一个框架和谐了当代留意力想象。 用此挨次锤真金不怕火的新模子T6,代码已在GitHub开源。 论文发布后,有创业者示意,终于无谓付那么多钱给云厂商了。 也有谈判者以为,论文中的实际看起来很有
详情
梦晨 发自 凹非寺量子位 | 公众号 QbitAI开云体育
新式留意力机制TPA,姚期智院士团队打造。

TPA对每个token作念动态的张量主张,不存储好意思满的静态KV,而是保留主张的版块,内存占用从简90%(概况更多),而不会捐躯性能。

论文中还认知了流行的MHA、MQA、GQA齐是TPA的极度情况,用一个框架和谐了当代留意力想象。

用此挨次锤真金不怕火的新模子T6,代码已在GitHub开源。

论文发布后,有创业者示意,终于无谓付那么多钱给云厂商了。

也有谈判者以为,论文中的实际看起来很有但愿,不外实际中的模子限度有点小,但愿看到更多法规。

动态张量主张,无缝集成RoPE
尽管现存的留意力机制在稠密任务中得到了可以的成果,但它也曾有蓄意和内存支拨大的颓势。
DeepSeek-v2中提倡的MLA压缩了KV缓存,但与RoPE位置编码不兼容,每个留意力头需要特等的位置编码参数。
为了克服这些挨次的局限性,团队提倡张量积留意力(TPA,Tensor Product Attention)。
新挨次在留意力蓄意进程中对QKV作念主张。
与LoRA系列低秩主张挨次比较,TPA将QKV永诀构造为与高下文接洽的主张张量,已毕动态稳健。

通过只缓存主张后的秩,建立适合的参数可使内存占用缩短90%或以上。

关于流行的RoPE位置编码,TPA可以与之无缝集成,已毕以较低的本钱旋转主张KV,无需进行复杂的诊治。

在实际中,使用FineWeb-Edu 100B数据集锤真金不怕火模子,TPA与其他留意力想象比较长期保捏较低的困惑度。

在ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样人道能。TPA和TPA-KVonly在大渊博任务中齐优于或匹配系数基线。

论文由清华&上海期智谈判员团队、UCLA顾全全团队协调,共归并算作清华博士生张伊凡与姚班学友、现UCLA博士生刘益枫。
此外还有来自心动网罗Taptap的Qin Zhen。

论文地址:https://arxiv.org/abs/2501.06425开源代码:https://github.com/tensorgi/T6
参考贯穿:[1]https://x.com/yifan_zhang_/status/1879049477681741896