LLM 显存计算器

粘贴 config.json,自动解析架构参数,精确计算部署所需显存

Step 1 · 粘贴模型配置
Step 2 · 部署配置 (需要手动填写)
10%
显存估算结果
模型权重
KV Cache
总显存需求
推荐 GPU 配置
量化方案说明
W 和 A 的含义:W = Weight(权重),A = Activation(激活值/计算精度)。W8A8 表示权重和激活都用 INT8。
W8A8权重 INT8 + 计算 INT8,速度最快,精度损失较大 W8A16权重 INT8 存储,计算时反量化为 FP16,平衡速度和精度 W4A16权重 INT4 存储,计算 FP16,显存最省但精度损失更大 W4A8权重 INT4 + 计算 INT8,昇腾特有的混合精度方案 KV-INT8KV Cache 用 INT8 存储,可大幅节省长上下文显存 KV-INT4KV Cache 用 INT4 存储,节省更多但可能影响长文本质量
注意:显存计算中 W8A16 按权重存储大小(1 byte)计算,实际推理时激活值会临时占用额外显存(已包含在"额外开销"中)