W 和 A 的含义:W = Weight(权重),A = Activation(激活值/计算精度)。W8A8 表示权重和激活都用 INT8。
W8A8权重 INT8 + 计算 INT8,速度最快,精度损失较大
W8A16权重 INT8 存储,计算时反量化为 FP16,平衡速度和精度
W4A16权重 INT4 存储,计算 FP16,显存最省但精度损失更大
W4A8权重 INT4 + 计算 INT8,昇腾特有的混合精度方案
KV-INT8KV Cache 用 INT8 存储,可大幅节省长上下文显存
KV-INT4KV Cache 用 INT4 存储,节省更多但可能影响长文本质量
注意:显存计算中 W8A16 按权重存储大小(1 byte)计算,实际推理时激活值会临时占用额外显存(已包含在"额外开销"中)