老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1

  DeepSeek     |      2025-03-08 11:15

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1

  日前美团技术团队宣布对DeepSeek R1进行了INT8精度量化,让DeepSeek R1可以在如A100等老型号GPU上进行部署。

  据介绍,DeepSeek R1发布以后不少企业和个人都在尝试部署满血版本,但原生版本的模型权重为FP8数据格式,对GPU芯片类型有严格限制,仅能被英伟达新型GPU支持(如Ada、Hopper架构芯片),其他型号GPU(如A100)无法直接部署。

  虽然可以将FP8权重反量化为BF16权重后,在A100等GPU上进行推理,但是这对显存的要求提升了一倍,推理吞吐也会下降。

  为此美团搜索和推荐平台部对DeepSeek R1模型进行了INT8精度量化尝试,发现使用INT8量化后模型精度基本无损。

  基于INT8量化,DeepSeek R1模型解锁了芯片限制,可以部署到A100等其他型号GPU;并且相比BF16实现了50%的吞吐提升,进一步降低了推理成本。

  目前量化代码已经发布在了开源LLM推理框架SGLang上,量化模型已经发布到了Hugging Face社区: