LLM模型 模型 transformer 【attention0】 【attention1】MHA、MQA、GQA和MLA 【attention2】Flash Attention:从 V1 到 V4 的计算方法与优化之路 【attention3】deformable attention 【attention4】可训练稀疏注意力MoBA & NSA 【attention5】时序压缩与隐空间压缩MTLA 量化 量化