世界首颗超高并行光计算集成芯片“流星一号”

500

本文由半导体产业纵横(ID:ICVIEWS)综合

上海光机所首次在光芯片上实现超100并行度的光子计算。

近日,中国科学院上海光学精密机械研究所空天激光技术与系统部谢鹏研究员团队在解决“光芯片上高密度信息并行处理”难题上取得突破,研制出超高并行光计算集成芯片“流星一号”,实现了并行度>100的光计算原型验证系统。相关研究成果以《具备100波长复用能力的并行光计算》(Parallel Optical Computing Capable of 100-Wavelength Multiplexing)为题,以封面论文形式发表于《光:快讯》。

500超高并行光计算集成芯片-“流星一号”

光计算集成芯片系统

光计算作为非冯·诺伊曼结构代表,具有可扩展、低功耗、超高速、宽带宽、高并行度的天然优势,是后摩尔时代破解高维张量运算、复杂图像处理等大规模数据快速计算的关键技术,为人工智能、科学计算、多模态融合感知、超大规模数据交换等“算力密集+能耗敏感”场景提供硬件加速。

过往几年,学术界和产业界持续对光计算芯片的矩阵规模、光学主频开展深度探索,以台积电的光计算芯片矩阵规模(~512x512)和美国加州理工学院的光计算光学主频(>100GHz)为典型代表,分别呈现逼近工艺极限和物理极限的趋势,进一步取得突破难度颇大。因而,有效扩展计算并行度是光计算性能提升的前沿发展方向,也是光计算迈向实用的必由之路。

上海光机所研究团队围绕光计算技术并行度提升,创新超高并行光计算架构,破解光计算芯片的信息高密度信道串扰抑制、低时延光信号高精度同步和跨尺度高密度器件集成等核心挑战,在融合了多波长光源、高速光交互、可重构光计算、高精度光矩阵驱动和并行光电混合计算算法的基础上,成功研发了全新片上并行光计算集成芯片系统。

该系统核心光芯片全部自主研制,包含了自主研制的集成微腔光频梳(频率间隔~50GHz,输出光谱范围>80nm,可支撑波长复用计算通道数>200),作为芯片级多波长光源子系统;自主研制的大带宽、低时延、可重构光计算芯片(通光带宽>40nm),作为高性能并行计算核心;自主研制的高精度、大规模、可扩展的驱动板卡,作为光学矩阵驱动子系统(通道数>256);基于该光子集成芯片系统,首次验证了并行度>100的片上光信息交互与计算原型;在50GHz光学主频下,单芯片理论峰值算力>2560TOPS ,功耗比>3.2TOPS/W。

500超高并行光计算架构

与传统单波长光计算相比,在相同矩阵规模和光学主频的条件下,超高并行光计算可通过波分复用提供超百路并行度,使算力提升 2 个数量级。换言之,在不改变芯片硬件的情况下提升并行度,就像将单车道的高速公路改造成可并行通行百辆车的超级公路,进而大大提高单位时间内的吞吐量。

实现整个系统的高效运行面临诸多技术挑战。在芯片设计层面,为支持百通道并行度,工作带宽成为最关键的技术指标,它直接决定了计算芯片的并行处理能力。该团队对芯片器件进行了特殊设计,确保器件具有足够大的通光带宽,并保持器件与芯片的带宽一致性,降低信号串扰。

在操控系统方面,针对光计算芯片操控节点数量庞大的特点,研究团队自主研发了高精度多通道光矩阵驱动子系统,以实现对光学矩阵的精确控制。此外,光源、光交互和光计算系统之间的兼容性问题也需要通过系统工程方法进行整体优化设计。

光计算从前沿技术迈向实用性技术

要实现光计算从前沿技术迈向实用性技术,必须充分发挥光子计算相对于电子计算的优势,需要突破三个方面:

矩阵芯片规模:通过扩大光计算芯片的矩阵规模提升计算能力,该技术路径主要受限于器件物理性质和制备工艺水平。

光学主频:通过提高光信号的加载速率实现更大计算能力,其受限于器件本身的性能。

信息并行度墙:这是决定光计算能否实用的关键,需要通过多维信息复用的方式,实现更大的信息吞吐量。

上海光机所研究团队最重要的创新点在于实现了光芯片的高并行度计算能力。在当前工艺情况下,“矩阵芯片规模”和“光学主频”提升有限且代价大,而突破“信息并行度”是光计算性能提高的极优选择。其有望将光计算的算力能力提升 2-3 个数量级,使其达到与电芯片、电子计算同台竞技的性价比水平。需要特别指出的是,虽然当前研究成果在矩阵规模和光学主频方面仍存在提升空间,距离超越最先进 GPU 芯片的性能还有一定差距,但研究团队对未来发展持乐观态度。

如果未来能将目前行业内最大的矩阵规模、最高的光学主频和本研究实现的超百并行度这三个关键参数进行系统集成,从理论上来看,单芯片算力有望突破 5000POPS,这一性能相当于 1000 颗英伟达最先进芯片的算力总和。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

站务

全部专栏