LLM 显存计算器

W 和 A 的含义：W = Weight（权重），A = Activation（激活值/计算精度）。W8A8 表示权重和激活都用 INT8。

W8A8权重 INT8 + 计算 INT8，速度最快，精度损失较大 W8A16权重 INT8 存储，计算时反量化为 FP16，平衡速度和精度 W4A16权重 INT4 存储，计算 FP16，显存最省但精度损失更大 W4A8权重 INT4 + 计算 INT8，昇腾特有的混合精度方案 KV-INT8KV Cache 用 INT8 存储，可大幅节省长上下文显存 KV-INT4KV Cache 用 INT4 存储，节省更多但可能影响长文本质量

注意：显存计算中 W8A16 按权重存储大小(1 byte)计算，实际推理时激活值会临时占用额外显存（已包含在"额外开销"中）