存储,下一个 “新宠”
在AI时代,以数据为中心的工作负载需求持续攀升,现代服务器面临着前所未有的挑战。如何让计算能力与内存带宽相匹配,成为了亟待解决的关键问题。人工智能、高性能计算和实时分析等行业依赖于能够以超快速度传输数据的内存子系统,以避免出现瓶颈。人工智能、高性能计算和实时分析等前沿行业,对内存子系统的数据传输速度提出了严苛要求,稍有延迟就可能导致性能瓶颈。
与此同时,一种新型内存技术——MRDIMM 横空出世,迅速在行业内掀起波澜,它能否成为 AI 存储产业的下一个 “宠儿”?又将对内存市场产生何种深远影响?
01 MRDIMM新型内存出世
MRDIMM 的诞生并非一蹴而就,它的起源可以追溯到 DDR4 世代的 LRDIMM(Load Reduced DIMM,减载双列直插内存模块)。LRDIMM 的设计初衷是为了减轻服务器内存总线的负载,同时提升内存的工作频率与容量。与传统的服务器内存模组 RDIMM 仅采用 RCD(Registered Clock Driver,寄存时钟器)不同,LRDIMM 创新性地加入了 DB(Data Buffer,数据缓冲器)功能。这一巧妙设计不仅降低了主板上的信号负载,还为使用更大容量的内存颗粒创造了条件,进而显著扩充了系统内存容量。
在DDR4 世代,JEDEC 对 LRDIMM 架构进行了多轮讨论,最终,中国澜起科技公司提出的 “1+9”(1 颗 RCD + 9 颗 DB)方案脱颖而出,成为 DDR4 LRDIMM 的国际标准。这一成就意义非凡,要知道,当时全球仅有 IDT(后被日本瑞萨电子收购)、Rambus 和澜起科技三家公司具备提供 RCD 及 DB 芯片套片的能力。或许正是基于以上契机和强大的研发实力,澜起科技在 2021 年成功入选 JEDEC 董事会,行业话语权得到进一步提升。
进入DDR5 世代,LRDIMM 的架构演变为 “1 颗 RCD + 10 颗 DB”。然而,由于 DDR5 内存模组容量大幅增加,DDR5 LRDIMM 的性价比优势逐渐缩小,在服务器内存中的占比也不尽人意。此时,MRDIMM 应运而生。它沿用了与 LRDIMM 类似的 “1+10” 技术架构,即搭配 1 颗 MRCD(多路复用寄存时钟驱动器)芯片和 10 颗 MDB(多路复用数据缓冲器)芯片,能够实现更高的内存带宽,满足现代服务器对内存带宽日益增长的需求。
随着CPU 核心数量和速度不断提升,内存必须以更快的速度提供数据。MRDIMM 通过同时操作两个内存通道,实现了比标准 DDR5 DIMM 更高的数据吞吐量。简单来说,它就像是将两个 DDR5 DIMM 结合,向主机提供两倍的数据速率。例如,将两个速度为 4400MT/s 的 DDR5 DIMM 组合,输出结果可达 8800MT/s。目前,第一代 MRDIMM 的速度可达 8800MT/s,第二代达到 12800MT/s。虽然预计未来几代产品速度还会大幅提升,如第三代有望达到 17600MT/s,但可能要到 2030 年以后才能问世,研发之路任重道远。
值得一提的是,英特尔与SK hynix、瑞萨合作,基于与 MRDIMM 类似的概念开发了多路复用器组合等级(MCR)DIMM。AMD 也在积极筹备类似的 HBDIMM。不过,目前尚无公开资料对 MCR DIMM 和 HBDIMM 进行详细比较。
此外,高尺寸(TFF)MRDIMM 具有独特优势,它无需增加物理插槽就能扩充内存容量。这类模块更高,可容纳更多内存芯片,不过仅适用于 2U 或更大尺寸的服务器设计。凭借更快、更高效的数据传输能力,MRDIMM 为面向未来的服务器设计提供了有力支持,助力其满足高性能计算的需求。
02“运力”成为AI发展最大瓶颈
近年来,服务器CPU 技术发展呈现出一个明显趋势:CPU 厂商不断增加内核数量,核心数呈指数级增长。英特尔和 AMD 最新一代 CPU 的核心数已达到数十甚至上百量级。与此同时,自 2012 年起,数据中心服务器内存对速度和容量的要求每年以超过 10 倍的速度增长,且丝毫没有减缓的迹象。可以说,在过去十年里,“算力” 和 “存力” 都取得了前所未有的进步。
然而,“内存墙” 的存在却成为了制约系统性能提升的关键因素。传统内存 RDIMM 传输带宽的增长较为缓慢,远远跟不上 CPU 核心数量指数级增加的速度。这也是 AMD 和英特尔在主流处理器上转向 DDR5 内存的重要原因之一。DDR5 市场也因此迎来了快速发展期。
如果这种情况持续下去,当CPU 核心数量超过一定限度,就会出现带宽分配不足的问题,导致 CPU 无法充分发挥增加核心数量带来的性能优势,严重制约系统性能平衡,“内存墙” 的负面影响愈发凸显。
在美光和英特尔的联合测试中,研究人员使用英特尔Hibench 基准测试套件中的 2.4TB 数据集进行测试。结果显示,在内存容量相同的情况下,MRDIMM 的运算效率相比 RDIMM 提高了 1.2 倍;使用容量翻倍的 TFF MRDIMM 时,运算效率更是提高了 1.7 倍,内存与存储之间的数据迁移减少了 10 倍。
在AI 推理方面,MRDIMM 同样表现出色。以运行 Meta Llama 3 8B 大模型为例,在内存容量相同的条件下,使用 MRDIMM 后,词元的吞吐量是 RDIMM 的 1.31 倍,延迟降低 24%,首个词元生成时间降低 13%,CPU 利用效率提升 26%,末级缓存(LLC)延迟降低 20%。
MRDIMM 采用 DDR5 的物理和电气标准,实现了内存技术的重要突破,有效扩展了 CPU 单核心的带宽和容量,极大地缓解了大算力时代 “内存墙” 对系统性能的桎梏,对提升内存密集型计算效率具有重要意义。随着 AI 产业的蓬勃发展,DDR5 内存接口芯片的需求和渗透率大幅提升。随着支持 MRDIMM 的服务器 CPU 上市,第二子代 MRDIMM 有望成为高性能计算、人工智能等应用系统的优选方案。
03 行业巨头推出相关产品
在此情况下,处理器和存储设备巨头开始布局相关产品。
处理器方面,英特尔在2024 年 9 月推出了至强 6 性能核处理器,这款处理器专为高性能计算、AI 等计算密集型工作负载设计,最高配备 128 个性能核,在 PCIe 通道、L3 缓存等方面进行了诸多扩展。其中,新型内存技术 MRDIMM 成为一大亮点。独立测试表明,使用 MRDIMM 的至强 6 处理器,相比使用传统 RDIMM 的相同系统,性能提升高达 33%。
AMD 也不甘示弱,其下一代 “Zen 6” 架构的 EPYC 霄龙系列服务器处理器将迁移到新的 SP7 和 SP8 平台,告别现有的 SP5 和 SP6 平台(分别支持 12 条和 6 条内存通道)。新平台中的 SP7 将提供 16 条和 12 条内存通道两种版本,以满足更高的内存带宽需求,更好地支持更多核心的处理器。此外,“Zen 6” EPYC 处理器将首次支持 MRDIMM 内存条,预计传输速率可达 12800MT/s 或更高。
存储方面,2024年7月,美光宣布已出样MRDIMM。该款全新内存产品为美光 MRDIMM 系列的首代,将与英特尔至强6处理器兼容。
2024 年 10 月,Rambus 推出了面向 12800MT/s MRDIMM 的 MRCD、MDB 芯片,以及配套的第二代 DDR5 服务器 PMIC。Rambus 表示,其第二代 DDR5 服务器 PMIC 专为 DDR5 RDIMM 8000 和 MRDIMM 12800 设计,能够在低电压下提供超高电流,以支持更高的内存速率和每根内存条上更多的 DRAM 和逻辑芯片。
2024 年 11 月,瑞萨电子率先推出面向第二代 DDR5 多容量双列直插式内存模块(MRDIMM)的完整内存接口芯片组解决方案。据瑞萨电子介绍,与第一代 MRDIMM 相比,这些产品的内存带宽提高了 1.35 倍,预计 2025 年实现量产。此次瑞萨设计并推出了三款全新关键组件:RRG50120 第二代多路复用寄存时钟驱动器(MRCD)、RRG51020 第二代多路复用数据缓冲器(MDB)和 RRG53220 第二代电源管理集成电路(PMIC)。此外,瑞萨还批量生产温度传感器(TS)和串行存在检测(SPD)集线器解决方案,为各类服务器和客户端 DIMM,包括行业标准下一代 MRDIMM,提供全面的芯片组解决方案。
日前,Cadence 推出了业界首款 12800MT/s DDR5 MRDIMM 内存 IP 系统方案。该方案包含高性能控制器和 PHY 物理层两部分,基于台积电 N3 制程工艺,已与基于美光 1-gamma 制程 DRAM 和澜起第二子代 DDR5 MRDIMM 接口芯片构建的 MRDIMM 内存条完成配套兼容验证。
SK 海力士在台积电北美技术论坛上,展示了三款面向先进服务器、速度可达 12800MT/s 的 MRDIMM 产品:标准板型、基于 1c nm DRAM 的款式容量可达 64GB;采用传统板型但基于更旧制程的型号容量可达 96GB;采用更高板型的产品容量则能进一步拓展到 256GB。
国内企业目前也开始逐渐布局该技术。其中,澜起科技进展较快。经过前期战略布局和持续的研发投入,去年澜起科技已完成时钟发生器芯片量产版本研发。澜起科技亦是全球两家可提供第一子代MRCD/MDB芯片的供应商之一,搭配公司的产品MRDIMM开始在行业规模试用。但其他企业暂时进度较慢,如德明利表示暂未布局 MRDIMM 相关产品方案研发,仅保持对新技术、新产品形态的关注与探索。
04 MRDIMM与HBM或将在AI领域并存
第二子代MRDIMM 的数据传输速率达到 12800MT/s,相比第一子代提升了 45%,是第三子代 RDIMM(支持速率 6400MT/s)的两倍,这无疑将大幅提升系统性能。在高性能计算、人工智能等对内存带宽需求较大的工作负载场景下,MRDIMM 有望成为应用系统主内存的优选方案。而且,未来会有更多的服务器 CPU 平台支持第二子代 MRDIMM,包括一些 ARM 架构的 CPU 平台,这将进一步完善 MRDIMM 的生态,推动 MRDIMM 行业渗透率的提升以及 MRCD/MDB 芯片需求的增长。
相比于HBM,MRDIMM在大容量、成本效益和可扩展性方面都有优势。未来,这两项技术有望成为AI和高性能计算的主流内存解决方案,进一步推动内存市场的革新。不过,DRAM内存模组(包括DRAM和MRDIMM)属于服务器主内存,与HBM的应用场景不同,分别有相对独立的市场空间,二者都将受益于AI产业的发展,并非竞争或替代关系。