晶圆级加速器,重新定义AI

500

本文由半导体产业纵横(ID:ICVIEWS)编译自techxplore

晶圆级处理器可以提供更强大的计算能力和更高的能源效率。

加州大学河滨分校的工程师在《设备》杂志上发表的一篇技术评论论文探讨了一种新型计算机芯片的前景,这种芯片可以重塑人工智能的未来,并且更加环保。

Cerebras 制造的这些巨型芯片被称为晶圆级加速器,建立在餐盘大小的硅晶圆上,与传统的图形处理单元(GPU)形成鲜明对比,后者的大小不比邮票大。

加州大学河滨分校跨学科团队的论文得出结论:晶圆级处理器可以提供更强大的计算能力和更高的能源效率——随着人工智能模型变得越来越大、要求越来越高,这些特性正是所需要的。

“晶圆级技术代表着一次重大飞跃,”加州大学河滨分校伯恩斯工程学院电气与计算机工程教授、该论文的主要作者米赫里·奥兹坎 (Mihri Ozkan) 表示。“它使拥有数万亿个参数的人工智能模型能够比传统系统运行得更快、更高效。”

除了 Ozkan 之外,合著者还包括 UCR 研究生 Lily Pompa、Md Shaihan Bin Iqbal、Yiu Chan、Daniel Morales、Zixun Chen、Handing Wang、Lusha Gao 和 Sandra Hernandez Gonzalez。

Ozkan 表示:“通过将所有东西都放在一个晶圆上,就可以避免芯片间通信造成的延迟和功率损失。”

该论文还重点介绍了晶圆上芯片封装等技术,这些技术可以使晶圆级设计更加紧凑、更易于扩展,计算密度可能提高 40 倍。

当前AI训练硬件呈现多元化发展态势,主要分为两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如NVIDIA H100)。

Cerebras WSE-3采用台积电(TSMC)5nm工艺,在46,225mm2的晶圆上集成4万亿个晶体管和90万个AI优化核心,其44GB片上SRAM可实现21PB/s的内存带宽。相比之下,Tesla Dojo采用模块化设计,每个训练瓦片包含1.25万亿晶体管和8,850个核心,通过特斯拉传输协议(TTPoE)实现低延迟通信。

在计算吞吐量方面,WSE-3在FP16精度下达到125PFLOPS的峰值性能,而NVIDIA H100在FP8精度下为1.97PFLOPS(启用稀疏计算时)。特别值得注意的是,在碳捕获模拟中,WSE-3展现出比H100快210倍的性能。延迟表现上,晶圆级架构优势更为明显:WSE-3的片上延迟达到亚纳秒级,而H100的NVLink 4.0虽提供900GB/s带宽,但多GPU通信延迟仍较高。

能效成为评估AI硬件的关键指标。WSE-3通过消除芯片间数据传输,实现每瓦2倍于前代的性能提升。其创新的"引擎块"设计整合了水-丙二醇冷却回路,可处理23kW的热设计功耗(TDP)。Tesla Dojo则采用去离子水直接冷却技术,每个训练瓦片功耗15kW。相比之下,H100 GPU的能效为7.9TFLOPS/W,需依赖液冷系统应对700W的功耗。

晶圆级芯片面临的最大挑战是制造良率。Cerebras采用SwarmX互连架构实现缺陷核心的动态绕行,宣称达到100倍缺陷容限。Tesla Dojo则采用TSMC的集成扇出(InFO)封装技术,将25个D1芯片集成在载具晶圆上。在工艺节点方面,WSE-3采用TSMC 5nm FinFET工艺,而Dojo使用7nm工艺,两者都代表了半导体制造的最前沿。

“如果把 GPU 想象成繁忙的高速公路——效率很高,但交通堵塞会浪费能源,”Ozkan 说道,“晶圆级引擎更像是单轨列车:直接、高效、污染更少。”

“我们看到晶圆级系统本身正在加速可持续性研究,”Ozkan说道。“这对计算领域和地球来说都是双赢。”

一个系统高达86%的总碳足迹可能来自制造和供应链,而不仅仅是能源使用。他们提倡使用可回收材料和低排放合金,以及全生命周期设计实践。

“效率始于工厂,”Ozkan 说道。“为了真正降低计算的影响,我们需要重新思考整个流程——从晶圆到废料。这项审查是深度跨学科合作的成果。我们希望它能成为研究人员、工程师和政策制定者探索人工智能硬件未来的路线图。”

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

站务

全部专栏