6.考虑一个 decoder-only大模型模型维度与query head 数固定。MHA:每个query head 都有独立的 K/V headMQA:所有 query head 共用1组 K/V headGQA:若干个query head 共享一组K/V head,共有 g个K/V head,满足1gh下列说法最准确的是 CA. GQA的主要收益是减少query投影计算而K/Vcache大小与MHA基本相同B. GQA的主要收益是增大K/V表达维度因此推理质量通常超过MHAC. GQA让K/Vcache与带宽开销更接近MQA而质量通常比MQA更接近MHAD. GQA只对训练有帮助对自回归推理几乎没有意义----------------相关知识点大模型注意力机制全解析从MHA到MoBA一文掌握七种核心算法-CSDN博客核心的就是其中注意力机制MHA、MQA、GQA、MLA、NSA、SSA、MoBAMulti-Head Attention (MHA)设计初衷是增强模型的表达能力。通过将嵌入向量分割成多个头每个头学习不同方面的依赖关系模型捕捉到更丰富更复杂的上下文信息。