同质化的GPU云市场,谁能逃离内卷?
“一个聪明人从敌人那里得到的东西,比从一个傻瓜朋友那里得到的东西更多。”
——哲学家格拉西安
这句格言,正在AI领域被现实验证。美国的限制政策总会告诉我们,哪些东西是发展AI至关重要的。
2024年10月,美国商务部再次升级制裁,限制中国实体访问美国的云服务,理由是“防止利用美国基础设施训练AI模型”。这标志着美国对华算力基础设施的“双管齐下”:先断GPU芯片,再封云服务,最终目标是让中国AI陷入算力断崖。
有读者会问,DeepSeek降低了单模型算力需求,把英伟达股价都打下来了,怎么AI算力仍然短缺呢?
一方面是总量在增长。正如杰文斯悖论所说,技术进步降低了使用成本时,资源的总消耗量反而会增加。比如燃油效率提高了更省油,但随着开车变得便宜,人们就会更多选择开车,结果导致汽油的总消耗量增加。AI也是如此,模型门槛下降导致智能化应用多了,总算力需求也就更大了。
此外,还跟算力集群的利用率有关。一位银行总工程师分享到,自家搭建的混合异构算力平台,高峰期算力集群利用率能达到60%就算优秀了,花大价钱采购的算卡资源,很多都被浪费或闲置了,加上配套系统与运维成本,整个资金投入非常大。
既然自建算力集群买不到卡、成本高,从云端获取算力的GPU云服务,就成了绝大多数企业用好、用活大模型的最佳选择。
那么,GPU云服务作为AI算力的另一根支柱,中国准备好了吗?
从云端获取算力,理想很丰满,但现实很骨感。GPU云服务还没有被企业普遍接受。一位金融从业者就告诉我们,整个金融行业对GPU 云的认知还比较模糊,大家习惯了传统的硬件采购模式,对云服务的接受度并不高。
为什么不高?这有两个原因:
一是同质化严重。对比市面上的GPU云解决方案,会发现算力层、平台层都高度同质化,采用的GPU芯片大同小异,平台功能也差不多。以至于有人觉得GPU云服务商提供的软件没什么太大价值。结果就是GPU云市场,目前的竞争主要是卷低价。
二是创新不足。同质化并不意味着GPU云服务的痛点和挑战都已经被解决了,实际上,同质化正是创新不足的表现。比如说,随着大模型的参数规模扩大,一个千卡集群的百P算力,训一个类Sora大模型就被占满了,其他客户需要算力,就得扩大集群规模,但AI芯片是很敏感的,从千卡到万卡、超万卡,故障率和运维难度也快速上升,怎么保证集群的稳定性,不能动不动就中断重写checkpoint?
花了大价钱买的GPU卡,结果有一半都在“摸鱼”,怎么让资源管理更精益,投资不浪费?
算卡供应链的不稳定,很多集群的架构不同、批次不同,无法合池训练,存在资源墙怎么打破?
国产芯片的适配难,新模型的训练时长比英伟达方案多出好几倍,一直沿用的训练推理一体化流程,在异构算力环境下漏洞百出,又该怎么办?
不难看到,不是行业用户不想用GPU云服务,而是市面上的解决方案都趋于同质化,过早开始卷价格。这种情况,与内卷化的定义异常契合。就像农业发展到一个确定形式之后,便停滞不前或无法向更高级转化。
GPU云市场,还处于方兴未艾的发展初期,各行各业都需要上云用算来进行AI训推,有巨大的市场空间等待打开,不应过早跌入同质化、内卷化的泥潭。
但要打破内卷,就得拿出有壁垒的差异化解决方案,让GPU云算力真正降本增效,从而带动企业用户的增长,以及整个GPU云的产业升级,就像一块耕地,通过优化种植技术和精耕细作,进一步提高粮食亩产量,从而避免卷入“谷贱伤农”的价格战内卷。
向技术要答案,一直是百度的特点。AI时代,百度智能云也凭借AI基础设施和技术能力在云市场异军突起,率先点亮了国产三万卡GPU集群,并且实现了几乎无损的混合训练能力,集群利用率高达95%以上。凭借GPU云领域的突出能力,百度智能云成为超半数央企的选择。
我们就以百度智能云为例,拆解一下GPU云逃离内卷的技术密码。
破解GPU云市场的内卷难题,必然要改变传统集群规模拓展难、故障率高、资源利用率低等问题,那就要从基础设施下功夫。
具体来说,百度智能云以技术为工具,对GPU集群进行了三重改造。让GPU集群从小农经济式的粗放经营,变成现代农场一样的规模化、集约化、精益化生产模式。
第一重改造:规模化,释放超万卡集群的澎湃算力。
“深度思考的大模型,业务用着不错,下面要全集团推广,你们尽快给算力扩容吧”,进入2025年,大模型上量成了IT人的一大挑战。因为集群规模扩大一倍,故障率能飙升好几倍,而实际运算效率却出现了边际递减。如果集群是由不同城市的小规模集群互联来构建的,那资源性能损耗就更严重了,数据时延也会让在线推理服务的体验大打折扣。如果AI思考一次就得十几分钟,员工用起来不耐烦,CTO怎么能不着急上火。
所以,百度智能云在构建规模化GPU算力集群,面临的首要技术挑战,就是如何提高集群的稳定性,降低故障率,给性能调优。
解题思路,就是软硬协同。有点类似于NVlink+ CUDA联手,充分释放N卡算力。那百度智能云靠的就是百舸。百度百舸是专为AI计算设计的高性能算力平台,让多个芯片、多个集群都用“普通话”,实现跨芯片“交流”。
硬件资源层,百舸设计了一套新的物理网络架构,就像是城市里精心规划的高效路线,新一代的HPN网络规模上支持10万卡,可同时容纳十万卡并行训练,这就为计算资源的高效运行提供了有力保障,让AI模型训起来更快更稳定。
集群组件层,百舸自研的集合通信库BCCL,可以实现GPU、昆仑芯等标准RDMA设备的互联互通,使得通信效果达到最优。以前没有统一沟通方式的时候,不同芯片互不打通,常常出现混乱,那协同工作效率自然就很低了。BCC制定了一套统一的通行规则,就可以让芯片高效协作,加上自适应并行策略搜索,自动规划出最佳方案,就能让各种硬件充分发挥作用,提升多芯混合训练任务的整体效能。
训推加速层,百舸在AI加速套件AIAK-LLM中构建了Accelerator抽象层,屏蔽硬件差异,相当于为多个集群开辟高速路,快速通信,让各种硬件都能充分发挥作用,高效协作,由此来构建极致规模、极致高密和极致互联的GPU集群。
想象一下,当企业使用万卡、超万卡集群时,就像一个源源不断供给养分的算力土壤,无论是金融机构处理海量交易数据,还是运行复杂的科学计算模型,或者是AI智能体实时响应客户需求,都能游刃有余。
目前,百舸已经具备了成熟的10万卡集群部署和管理能力,在横跨几十公里的集群上,百舸可以把单一训练任务的性能折损控制在4%以内,也让百度智能云成为GPU云厂商中纳管超大规模集群的一个标杆。
第二重改造:精益化,PD分离让AI应用随时在线。
如今,企业对算力的需求发生了巨大转变,从过去侧重于模型训练,逐渐转向更注重实时性的推理和后训练阶段,有点像城市交通发展到了一定阶段,新路(训练)就建得少了,取而代之的是防止车流拥堵(推理优化)。
无论是B端用户还是C端用户,如果大模型思考十几秒才给回应,用户都会不耐烦直接退出,这就是“首token延迟”。为了尽可能满足用户“即时反馈”的严苛要求,就迫使模型厂商绞尽脑汁。不能忽略的是,算力基础设施的优化,就像是把路铺平、修上护栏,提升系统的处理能力和并发效率,从而让在线服务像上高速一样顺畅运行,大大降低延迟率。
PD分离加速技术成为云厂商们竞相展示的“王牌”,而百度智能云的PD分离式推理基础设施,凭借全局优化能力脱颖而出。
物理网络层面,百度智能云打造了HPN(High-Performance Network)高性能网络集群,拥有自适应路由算法,像智能导航一样,避免了大规模数据传输时(如Alltoall)的流量集中问题。全新的拓扑结构,如同重新规划的城市路网,降低通信瓶颈,使带宽有效性达到90%以上,让交换机转发延迟大大降低,集群传输又快又稳。
流量管理层面,百度智能云自研的高性能KV Cache传输库,为高优先级队列预留带宽,相当于“特殊车辆优先通行通道”;分层传输设计支持多层KV Cache复用,相当于潮汐车道,根据数据流量灵活调整传输通道,提升通行效率,并且训推任务互不干扰,货车轿车“各走各道”,实现了DCN弹性RDMA满带宽传输,让数据高效流通。
通信组件层面,百度智能通过Alltoall算子优化和动态冗余专家编排,优化计算流与通信流,确保集群中所有GPU通信时间一致,显著提升吞吐量和性能。
以往企业使用大模型时,常因算力瓶颈、数据传输慢等问题受限,如同灌溉管道不畅影响了养分输送。而百度智能云将网络基础设施、通信组件与上层业务深度融合,精心修建了一套高效的“算力管网”,可以让数据、算力在不同业务场景间快速流动,能够助力各行各业快速应用大模型,解决企业智能化转型的当务之急。
第三重改造:多元化,一云多芯筑起算力可靠围墙。
限卡又限云,已经是美国遏制中国AI发展的明牌。完全依赖英伟达风险太大了,国际形势变化频繁,供应链随时可能被卡脖子,企业构建算力集群,不能押注在单一芯片,会考虑一云多芯。但采购国产芯片分散风险,异构芯片纳管与并行计算效率低,不同类型芯片之间协同工作困难重重,算力资源浪费严重。
在国内算卡供应紧张的当下,让多样化芯片能够协同训练,意义不用多说。“一云多芯混训”的能力,也让百度智能云成为多数企业GPU云的选择,比如长安汽车。
走进长安汽车智算中心,就像是一座算力工厂,依靠百舸平台与长安汽车自研的 “星环平台”,将算力资源发挥到极致。过去,服务器像低效运转的老旧生产线,大量算力被闲置浪费。如今,百舸升级的智能调度系统,集群平均算力使用率飙升至90%,综合资源利用率提升50%。
再比如某个头部城商行。对银行来说,业务可持续性至关重要,如果用户访问不了系统、办不了业务是重大事故。既要自主可控的异构算力集群,又要稳定可靠的服务保障,对城商行的基础设施提出了巨大挑战。该城商行与百度智能云合作,通过异构平台在算力感知的情况下,进行统一调度,让不同芯片不再“打群架”,可以被混合管理、混合使用,从而兼顾了算力安全与业务稳定。
再到百度自建的国产昆仑芯 P800 大型单一集群里一看,资源利用率更是高达 98%,让每一张GPU都物尽其用。
原来,单一服务器最多容纳8张计算卡,而昆仑芯超节点技术可以将64张昆仑芯P800集中于单机柜,并且通信效率堪比单一机型。跨集群层面,百度百舸打通集群内的网络墙,实现异构芯片互联互通。通过accelerator 抽象层,屏蔽底层芯片差异,通过统一接口实现异构芯片的“即插即用”;采用自适应并行工具,找到最优的切分策略,根据芯片性能自动分配任务,减少性能损失。最终实现了近乎无损的“万卡级多芯混训”能力。
在万卡规模上,百舸可将两种芯片混合训练,目前一共支持 18 种以上芯片类型,彻底解决了一云多芯混训的复杂难题。
如今,经过规模化、精益化、多元化的三重技术改造,GPU云已从零散低效的“算力作坊”,升级为高效精益的“现代农场”。百度智能云也凭借在GPU云服务领域的卓越表现,成为头部厂商中增速最快的云服务厂商。IDC最新发布的《中国智算专业服务市场报告》中,百度智能云凭借AI解决方案实施服务,成为行业第一,领跑市场。
这说明,依靠技术创新,GPU云厂商可以逃离内卷,为行业和客户创造差异化价值,让GPU云服务在企业级市场焕发出充沛的价值。
坚持“技术精耕”,百度智能云走了一条向技术要效益、向技术要价值的良性发展之路。不仅让其在GPU云市场建立差异化竞争的壁垒,也为整个行业从粗放走向精益,从内卷走向高质量发展,提供了一个很好的参考样本。
那我们不禁要问,为什么百度智能云能摆脱内卷的漩涡?是什么让百度智能云有所不同?
一方面,是百度的技术基因,经过多年在AI领域的发展,百度及百度智能云已经打造了一系列高度适配AI业务、具有独特创新能力的“尖刀型”技术,有力地解决GPU云集群建设中的痛点与难点。
另一方面,是百度智能云的发展路径清晰,向技术要答案、不走内卷化之路的战略选择是明确的,这也决定了百度智能云必须在技术上下苦功、登天梯。面对需求侧的企业客户,以供给侧的高质量GPU云服务,回应AI规模应用的复杂算力需求;面对云市场的竞争对手,以技术领导力带动GPU云产业的高质量发展,避免裸金属的红海价格战,以百舸为核心的能力与服务,开拓更大的价值空间。
GPU云的未来,不是卷“谁更便宜”,而是看“谁敢创新”。真正的技术领导者,将赢下这场AI算力革命的主导权。