通过“開(kāi)源周”以及公開(kāi)发布V3/R1大模(mó)型的(de)推理系统技术介绍,DeepSeek成为AI技术圈和開(kāi)发者的(de)“開(kāi)源之神”,已经被昵称为DeepOpen。
当DeepSeek的(de)開(kāi)源代(dài)码如蒲公英种子飘向世界,国内AI芯片(piàn)行业是(shì)否能借此东风,迎来属于自己的(de)春天?
“(DeepSeek的(de)開(kāi)源)對(duì)整个AI行业都有(yǒu)一定程度的(de)推动。”行业研究机构Omdia人工智能首席分析师苏廉节告诉《中(zhōng)国经营报》记者,AI芯片(piàn)厂商(shāng)通过这些開(kāi)源代(dài)码更加了解DeepSeek大模(mó)型的(de)架构和特点,进而做出相對(duì)应的(de)优化,特别是(shì)算力的(de)配置、训练推理的(de)架构、存储资源的(de)需求等。
摩尔线程和壁仞科技这两家国内AI芯片(piàn)的(de)代(dài)表(biǎo)厂商(shāng)都在接受採(cǎi)访时表(biǎo)示,DeepSeek这种低算力需求的(de)大模(mó)型,對(duì)国产AI芯片(piàn)的(de)发展是(shì)一个重要机遇。
记者还注意到,随着DeepSeek的(de)出圈,国产算力迎来火(huǒ)爆行情,一大批一体机密集上(shàng)线,由此出现“2025是(shì)一体机元年”的(de)观点。“一体机今年火(huǒ)起来主要是(shì)因为DeepSeek,很多政企客户都想把DeepSeek用起来。”容联云大模(mó)型产品负责人唐兴才表(biǎo)示,市面上(shàng)目前满血版DeepSeek大模(mó)型一体机售价约为200万元。
展開(kāi)全文
盘活国产AI生态
在“開(kāi)源周”上(shàng),FlashMLA是(shì)DeepSeek专为英伟达Hopper 架构 GPU(如英伟达 H100/H800)优化的(de)注意力解码内核,已投入生产,现在被视为提升顯(xiǎn)卡潜力的(de)“加速器”。DeepEP则是(shì)首个用于MoE模(mó)型训练和推理的(de)開(kāi)源EP通信库,可以直接调用 Hopper GPU的(de) TMA 张量内存加速器,被称为大模(mó)型训练的(de)“通信管家”。而DeepGEMM是(shì)一个优化矩阵乘法的(de)工具,实现FP8低精度下的(de)1350+ TFLOPS算力,代(dài)码仅300行,被称为矩阵计算的(de)“省电小能手”。DualPipe主要用于解决流水线并行中(zhōng)的(de)“等待时间”问题;比如,多任務(wù)步骤速度不一时,其能双向调度,减少空闲时间。EPLB则用于自动平衡GPU负载,当某些AI专家模(mó)型任務(wù)过重时,会复制任務(wù)到空闲顯(xiǎn)卡,避免“忙的(de)忙死,闲的(de)闲死”。最后的(de)是(shì)3FS,被称为数据处理的(de)“极速组合”,採(cǎi)用了分布式文件(jiàn)系统,利用高速存储和网络技术(如SSD、RDMA),让数据读取速度达到每秒6.6TB。
值得注意的(de)是(shì),DeepSeek在包括上(shàng)述開(kāi)源项目中(zhōng)直接调用比英伟达CUDA更底层的(de)指令PTX(Parallel Thread Execution,一种底层硬件(jiàn)指令集,用于直接与GPU驱动函数进行交互,实现更为精细的(de)硬件(jiàn)操作、优化TMA加速器等),顯(xiǎn)示出DeepSeek對(duì)于GPU微架构的(de)深度了解。这种能力通常为芯片(piàn)设计团队所独有(yǒu)。
苏廉节也表(biǎo)示,DeepSeek团队對(duì)GPU硬件(jiàn)底层技术的(de)理解力很强,这在大模(mó)型行业并不多见。甚至有(yǒu)消息传出,DeepSeek在寻找芯片(piàn)设计人才,想要做自己的(de)芯片(piàn)。對(duì)此,苏廉节认为,目前140人的(de)DeepSeek团队要做芯片(piàn)设计很困难,但它背后的(de)幻方量化所在的(de)金融领域确实有(yǒu)定制化芯片(piàn)的(de)需求。
目前,摩尔线程已实现對(duì)DeepSeek開(kāi)源周“全家桶”的(de)支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件(jiàn)系统(3FS);壁仞科技在“開(kāi)源周”之前就已经实现對(duì)FlashMLA、DeepGEMM、DeepEP等核心模(mó)块类似功能和优化技术。
事实上(shàng),春节期间已有(yǒu)多家国产芯片(piàn)企业陆续宣布對(duì)DeepSeek模(mó)型的(de)适配或者上(shàng)架服務(wù),包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、云天励飞、燧原科技、昆仑芯等。
“通过‘開(kāi)源周’,更多人尤其是(shì)開(kāi)发者看到了DeepSeek的(de)优势和如何去进行调优和适配。”苏廉节认为,国内AI芯片(piàn)厂商(shāng)可以从DeepSeek的(de)開(kāi)源代(dài)码库中(zhōng)看到和进一步了解底层的(de)哪些代(dài)码對(duì)未来的(de)适配性有(yǒu)帮助。
“比如DeepEP是(shì)一个专门为混合专家模(mó)型開(kāi)发的(de)并行通信技术,需要芯片(piàn)厂商(shāng)支援。”苏廉节表(biǎo)示,芯片(piàn)厂商(shāng)因此会開(kāi)发相對(duì)应的(de)工具,让開(kāi)发者能更顺畅地进行代(dài)码转移和应用支撑。
摩尔线程方面则认为,DeepSeek的(de)開(kāi)源模(mó)式为国产AI芯片(piàn)厂商(shāng)提供了与软件(jiàn)開(kāi)发者合作的(de)机会。“通过与DeepSeek为代(dài)表(biǎo)的(de)開(kāi)源模(mó)型的(de)合作,国内AI芯片(piàn)厂商(shāng)可以更好地理解AI应用的(de)需求,进行针對(duì)性优化;国产模(mó)型+国产芯片(piàn)可以形成完整的(de)AI闭环,加速国产AI生态的(de)发展进程。”
“短期内,国产GPU厂商(shāng)应保持训练芯片(piàn)的(de)持续迭代(dài),比如最好支持FP8,确保技术不脱节,同时通过推理芯片(piàn)快速切入商(shāng)业化场景。”摩尔线程方面还表(biǎo)示,长期来看应该瞄准“训(练)推(理)一体”架构,通过统一计算平台降低客户切换成本,最终在自主生态中(zhōng)实现训练与推理的(de)协同增长。
激活一体机市场
摩尔线程方面还提到,DeepSeek大幅降低AI成本,让AI更加普及,反过来又会提升行业對(duì)算力规模(mó)的(de)需求。
中(zhōng)信证券研报指出,算力算法联合优化带来的(de)降本让人们看到AI应用落地的(de)更多可能,同时杰文斯悖论有(yǒu)望支撑长期推理算力需求。杰文斯悖论指的(de)是(shì),当技术进步提高了使用资源的(de)效率,但成本降低导致需求增加,底层资源的(de)消耗量反而提升。
根据《DeepSeek-V3/R1推理系统概览》一文,DeepSeek算了一笔账:“假定GPU租赁成本为2美元/小时,总成本为87072美元/天。如果所有(yǒu) Tokens全部按照DeepSeek R1的(de)定价计算,理论上(shàng)一天的(de)总收入为562027美元,利润率545%。”
如此高的(de)成本利润率,让中(zhōng)小厂商(shāng)在技术平权之下迎来降本机遇。
记者注意到,当多地政府宣布政務(wù)系统接入DeepSeek、一大批AI公務(wù)员上(shàng)岗时,DeepSeek一体机也颇为火(huǒ)爆。据不完全统计,至少已有(yǒu)华为昇腾、中(zhōng)科曙光、浪潮、新华三等60余家厂商(shāng),在加速部署一体机。
“一体机一直都在的(de),只是(shì)DeepSeek非常适合本地化部署。”苏廉节指出,一体机并不是(shì)新产品,就是(shì)一个结合算力、存储和网络的(de)小型数据中(zhōng)心,“主要由几个小型服務(wù)器构成,用于边缘侧小规模(mó)的(de)商(shāng)用场景”。
在唐兴才看来,大模(mó)型一体机是(shì)把大模(mó)型和硬件(jiàn)(如CPU、GPU、存储设备等)结合,封装为一体化设备。“一体机客户目前来看主要是(shì)国央企、政府、金融机构这些對(duì)隐私安全要求比较高的(de)客户。”唐兴才说。
据唐兴才观察,大模(mó)型一体机市场玩家主要可分为系统集成商(shāng)、应用厂商(shāng)、模(mó)型厂商(shāng)和GPU资源厂商(shāng),具体有(yǒu)华为、联想、阿里巴巴、百度、浪潮、新华三、中(zhōng)科曙光等。
“我们主要是(shì)大模(mó)型应用厂商(shāng),会和硬件(jiàn)厂商(shāng)一起做一体机。因为客户想要的(de)是(shì)模(mó)型+应用场景。”唐兴才表(biǎo)示。
“相比传统的(de)云方案,大模(mó)型一体机具备私有(yǒu)部署、交付便捷、算力门槛低和稳定性的(de)优势,能够满足金融、能源、政務(wù)、医疗等数据敏感型行业對(duì)于安全和隐私的(de)要求。”摩尔线程方面表(biǎo)示。
据市场反馈,DeepSeek一体机的(de)价格从几十万元到数百万元不等。有(yǒu)创业公司表(biǎo)示,“满血一体机”价格在150万—200 万元。
唐兴才表(biǎo)示,200万元一般能跑满血版DeepSeek一体机。而另有(yǒu)大模(mó)型公司人士表(biǎo)示,一体机售价通常包括硬件(jiàn)+软件(jiàn),硬件(jiàn)毛利率约为15%,软件(jiàn)毛利率在 40%左右。
据浙商(shāng)证券测算,随着DeepSeek快速部署需求的(de)增加,一体机的(de)市场需求有(yǒu)望顯(xiǎn)著增长,预计2025—2027 年,一体机需求量将分别达到15万台、39万台和72 万台,未来三年DeepSeek一体机市场空间有(yǒu)望达到1236 亿元、2937 亿元和 5208 亿元。
唐兴才所在公司刚開(kāi)始推一体机,市场反响还可以。“现在还看不清,等几个月看看吧。”他對(duì)市场前景谨慎乐观。
来源:《中(zhōng)国经营报》
记者:李玉洋
编辑:吴清
审核:李正豪
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。