【attention5】时序压缩与隐空间压缩MTLA
Transformer架构的痛点:Key-Value(KV)缓存,该缓存的大小随着生成序列长度线性增长,逐渐成为影响推理效率的关键瓶颈。利用注意力层的冗余性,有很多地方可以挖,之前介绍的MLA、MoBA和NSA都是在隐空间维度对 KV 缓存进行压缩。除了这个维度,时序维度上(token和token之间的KV cache)也可以压缩。这篇剑桥的文章就是将这两个压缩同时使用(鉴于之前在隐空间的压缩已经很棒了,所以这篇文章主要的卖点还是时序压缩),加速模型推理速度。(相比MHA,在翻译任务中,实现了超过 5 倍的推理速度提升,并将推理过程中的 GPU 显存占用降低了超过 8 倍。)