黄仁勋定律再现,英伟达可以笑傲江湖了吗?

500

文 / 道哥

英伟达每两年更新一次GPU架构,进而实现性能的大幅提升,每一次都堪称“震撼弹”。

3月19日凌晨,备受期待的英伟达GPU技术大会(GTC)上,黄仁勋发表主题演讲《见证AI的变革时刻》,宣布推出了Hopper架构芯片的继任者、最新一代AI芯片架构Blackwell架构的B200芯片。其定位直指“新工业革命的引擎”,“把AI扩展到万亿参数”。

目前,英伟达Hopper架构的芯片H100和GH200 Grace Hopper超级芯片正在为世界上许多最强大的超级计算中心提供算力,为训练大型语言模型提供了强大支持,推动ChatGPT等智能服务的爆火。

相较H100,B200的性能有望提升30倍,这将让英伟达在整个行业中保持领先位置。

凭借AI浪潮带来的风口以及核心产品H100,英伟达已赶超谷歌和亚马逊,成为价值超2万亿美元的科技公司。如今,随着Blackwell B200和GB200的问世,英伟达的领先优势还要继续领先。而面对风头正劲的英伟达,其它厂商尤其是中国厂商还有机会吗?

500

“全球最强”的AI芯片

在两个小时的演讲中,黄仁勋围绕五大板块,介绍了英伟达的最新研发进展:新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊(AI foundry)服务,以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。

最为引人关注的,还是全新的Blackwell架构平台和B200芯片。

“Hopper很棒,但我们需要更大的GPU。”

500

黄仁勋很快就在现场展示了英伟达的首款Blackwell芯片B200,并称将于今年晚些时候上市。

目前,英伟达升级GPU架构的频率为平均两年一次,进而对产品性能进行大幅提升。

2022年,英伟达发布了基于Hopper架构的H100,现在又推出了基于Blackwell架构的B200,性能提高的同时,也更擅长处理AI相关任务。

从外观来看,Blackwell GPU的体积明显大于H100,采用台积电的4纳米(4NP)工艺蚀刻而成,整合了两个独立制造的裸晶(Die),共有2080亿个晶体管,提供高达20 petaflops FP4的算力

与H100相比,B200的晶体管数量是其(800亿)2倍多。

B200算力提升的关键是实现了多卡互联。

从传统意义上说,Blackwell架构的B200芯片并不是单一GPU,而是由两个紧密耦合的芯片组成。根据英伟达的说法,两个芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接进行连接,从而确保它们能够作为单个完全一致的芯片正常运行。

在此基础上,一个GB200芯片结合了两个B200 GPU和一个独立的Grace CPU,将能够使大模型推理工作负载的性能提升30倍,同时提高效率。相比H100,B200可将生成式AI的算力“成本和能源消耗降至1/25”。

这就意味着,以前训练一个拥有1.8万亿参数的模型需要8000个Hopper GPU 和15兆瓦的功耗,现在只需要2000个Blackwell GPU,功耗却只有4兆瓦。同时,取决于各种Blackwell设备的内存容量和带宽配置,工作负载的实际性能可能会更高。

在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

算力越高,功耗越少,这样的产品自然将获得市场的欢迎。据英伟达透露,目前,亚马逊、戴尔、谷歌、Meta、微软、OpenAI、特斯拉都已经计划使用Blackwell GPU。

500

黄氏定律,英伟达向平台提供商进化

在芯片的发展史上,有一条非常著名的摩尔定律:集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍。但随着CPU的发展,这条定律已经逐渐失效。

台积电在3nm制程上的突破,并没有给芯片性能带来突破代际的提升。2023年9月,苹果A17 Pro问世,使用了台积电生产的首个3nm制程芯片,但CPU性能只有10%的提升。

但是,伴随着摩尔定律失效的,是黄仁勋的黄氏定律:GPU的效能每两年将增加一倍以上。

500

黄仁勋指出,“创新不仅仅是芯片,而是整个堆叠”。但是,他对于芯片本身性能的介绍不长,而是将重点放在了DGX(数据中心操作系统)。

根据他的介绍,在多卡互联上,英伟达的NVLink和NVSwitch技术是其护城河。NVLINK是一种点对点的高速互连技术,可以将多个GPU进行直接连接,进而形成一个高性能计算集群或深度学习系统。

此外,NVLink还引入了统一内存的概念,支持连接的GPU之间的内存池,这对于需要大型数据集的任务来说是一个至关重要的功能。

而NVSwitch 是一种高速交换机技术,可以将多个GPU和CPU直接连接起来,形成一个高性能计算系统。在这项技术的支持下,英伟达可以将72块B200连接在一起,最终成为“新一代计算单元”GB200 NVL72。

像这样的“计算单元”机柜,FP8精度的训练算力高达720PFlops,直逼H100时代一个DGX SuperPod超级计算机集群(1000 PFlops)。而“打包批发卖卡”的方式也符合大模型公司的用卡需求,这也有望提升英伟达的营收水平。

据英伟达2023财年财报显示,英伟达的数据中心业务有40%的收入来自超大规模数据中心与云服务商。

所以,正如黄仁勋所说,Blackwell不再是一个芯片,而是一个平台的名称。而英伟达也将不再是芯片供应商,而更像是微软、苹果这样的平台提供商,可以让其他公司在平台上构建软件

这样一个英伟达,未来是不是将成为一个无敌的存在呢?

500

可以高枕无忧了吗?

资本市场的兴奋度,似乎并没有科技圈那么高。

500

19日当天,英伟达股价早盘一度上涨超过4%,但随后回落,收于每股884.55美元,涨0.7%,总市值2.21万亿美元。总体来说,有些高开低走的态势。

对于英伟达推出的新品,投资机构Plumb Funds的首席执行官兼投资组合经理Tom Plumb表示,Blackwell芯片并不令人意外,但他同时指出,这并不意味,AMD、高通、英特尔、微软等其他公司无法进入这一市场。

500

Insider Intelligence分析师Jacob Bourne则表示,英伟达巩固了其在AI领域的主导地位,但像AMD、英特尔这样的竞争对手,以及一些初创公司,甚至是大型科技公司,都可能削弱英伟达的市场份额,特别是在那些注重成本的企业客户中的份额

其实,在节点财经看来,英伟达的股价在过去一年已经翻了两倍多,成为美股市值第三大的公司。资本市场对英伟达的期望值很高,这种情况下,英伟达面临的压力也越来越大。而另一方面,谷歌、亚马逊和微软等都在开发自己的生成式人工智能芯片,以减少对英伟达的依赖,并将客户更紧密地锁定在自己的硬件和软件系统中。

所以,虽然英伟达被推到了AI芯片老大的位置上,但那是建立在其它对手没有全面发力的前提下。未来,英伟达必将面对日趋激烈的竞争。

更进一步来讲,面对英伟达为代表的美国人工智能芯片业的领先,中国厂商面临的挑战同样严峻。但是,AI时代的技术变革非常迅速,行业标准不断发展,后来者虽然面临着很大的挑战,但同样拥有空前的机遇

AI时代方兴未艾,一切还没有定数。国产替代与其临渊羡鱼,不如退而结网,抓住机会迎头赶上。只要努力自强,落后就是暂时的。

全部专栏