• 帮助中心

  • ADADADADAD

    模型,权重,精度

    老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1[ 8号文库 ]

    8号文库 时间:2025-03-09 07:19:17 热度:0℃

    作者:文/会员上传 下载docx

    简介:

    字典百科网(zdbk.com)3月7日消息,日前美团技术团队宣布对DeepSeek R1进行了INT8精度量化,让DeepSeek R1可以在如A100等老型号GPU上进行部署。据介绍,DeepSee

    以下为本文的正文内容,请查阅,本站为公益性网站,复制本文以及下载DOC文档全部免费。

    字典百科网(zdbk.com)3月7日消息,日前美团技术团队宣布对DeepSeek R1进行了INT8精度量化,让DeepSeek R1可以在如A100等老型号GPU上进行部署。

    据介绍,DeepSeek R1发布以后不少企业和个人都在尝试部署满血版本,但原生版本的模型权重为FP8数据格式,对GPU芯片类型有严格限制,仅能被英伟达新型GPU支持(如Ada、Hopper架构芯片),其他型号GPU(如A100)无法直接部署。

    虽然可以将FP8权重反量化为BF16权重后,在A100等GPU上进行推理,但是这对显存的要求提升了一倍,推理吞吐也会下降。

    为此美团搜索和推荐平台部对DeepSeek R1模型进行了INT8精度量化尝试,发现使用INT8量化后模型精度基本无损。

    基于INT8量化,DeepSeek R1模型解锁了芯片限制,可以部署到A100等其他型号GPU;并且相比BF16实现了50%的吞吐提升,进一步降低了推理成本。

    目前量化代码已经发布在了开源LLM推理框架SGLang上,量化模型已经发布到了Hugging Face社区:

    https://huggingface.co/meituan/DeepSeek-R1-Block-INT8

    https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8

    对具体过程感兴趣的,可以查看官方技术报告。

    老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1

    老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1.docx

    将本文的Word文档下载到电脑

    推荐度:

    下载
    热门标签: TAGS1 TAGS2 TAGS3 TAGS4 TAGS5
    ADADAD
    热门栏目