芯片,遇到难题
最近,semiengineering的文章指出,由于复杂性不断上升,芯片制造从单片芯片转向多芯片组件,需要进行更多次迭代,以及定制化程度不断提高导致设计和验证更加耗时,首次流片的成功率正在急剧下降。
从西门子提供的数据看,半导体行业首次流片的成功率已经达到了历史低点。此外,随着2nm的到来,先进制程工艺下的芯片良率也很难提高。
芯片遇到了大难题。
01
芯片流片成功率,历史低点
流片对于芯片设计来说,就是参加一次大考。
流片是检验芯片设计是否成功的关键,就是将设计好的方案交给代工厂生产出样品,检验设计的芯片有没有达到设计要求,或者要不要进一步优化。如果能够生产出符合要求的芯片,那么就可以大规模生产了。
在纪录片《电子立国自述传》中,对于流片时的心情是这么描述的:每次芯片tapeout的两三个月里,我的内心终日惶惶不安,难以入眠。无时无刻不在想哪里对不对,会不会有问题……等到芯片送回来,第一次按RESET时,我的心情紧张到了极点,松开RESET的瞬间,便是区分天堂与地狱的瞬间。
从西门子的数据来看,正常芯片流片首次成功率在30%左右,但两年降到 24%,2025年成功率更是降低至14%,十家中有八家都会失败。
有些芯片失败是因为设计流程过于随意,有的芯片失败不一定是因为功能问题。如果流片返回后运行速度比预期慢10%,或者功耗比预期大10%,在市场上可能就没有竞争力了,也就需要重新流片。
不少芯片巨头都在流片上栽过跟头,比如AMD的 Bulldozer(推土机)架构芯片、高通骁龙810芯片等。
AMD 的 Bulldozer 架构于 2007 年开始研发,将两个物理核心组成一个模块,共享浮点单元和 L2 缓存,但实际性能未达预期。由于设计复杂,流片后性能不佳,前期研发费用浪费,而英特尔同期推出的 Sandy Bridge 架构处理器性能更优,抢占了市场份额。
高通骁龙810芯片是2015年推出的旗舰移动处理器,但因采用先进制程和高性能设计,流片后出现严重发热和高功耗问题,导致手机过热、降频,用户体验差。高通随后进行了改进优化,而竞争对手三星则凭借更稳定、低功耗的Exynos处理器抢占了部分市场份额。
流片成功率下降,主要有四个原因。
一是,芯片越来越复杂。现在的芯片设计越来越多地采用多芯片组件,这些不同组件往往需要在不同的工艺节点生产。以先进的服务器芯片为例,计算核心采用5nm 工艺以实现更高性能和更低功耗,而存储单元可能使用更成熟的 14nm 工艺以保证成本和稳定性。这意味着需要协调多个代工厂和工艺技术,增加了设计和制造的复杂性。
二是,定制化芯片越来越多。定制化芯片是针对特定的数据类型、算法或应用场景设计,这使得芯片设计和验证工作变得异常繁琐。例如,用于深度学习推理的定制芯片,需要针对神经网络的特定结构和计算模式进行优化,从架构设计到指令集开发都需要重新规划。
三是,企业开发模式变了。过去,芯片开发周期通常为18 个月左右,而现在企业为了保持市场竞争力,需要在更短的时间内推出更多产品。许多芯片企业为了按时完成流片任务,不得不压缩设计和验证时间,甚至在一些关键环节简化流程。设计中的潜在问题无法被及时发现和解决,增加了流片失败的风险。
四是,人工智能带来的压力。人工智能的快速发展对半导体芯片的计算能力提出了极高的要求。AI 应用需要芯片提供更高的算力,但目前的开发和验证生产力并未有相应的突破。这导致芯片设计团队在有限的时间内需要交付更复杂的设计,增加了首次流片失败的风险。
半导体工程的编辑Brian Bailey在分析首次流片成功率降低的原因时也表示:“人工智能对芯片算力需求暴增,远超当前半导体技术和架构的进步速度。但开发和验证技术却没跟上,工程师只能用老工具,在更短时间内完成更多工作,流片失败也就不奇怪了。”
上一次出现流片成功率降低还是在2018年。
在2018年之前,半导体行业的ASIC首次流片成功率也是维持在30%左右,但2018年直接降到了26%。FPGA的数据比较难统计,但是可以看生产中漏掉的BUG数量。2018年,只有16%的FPGA项目能够实现零BUG漏出,这其实比ASIC首次流片成功率的下降更加严重。
成功率下降的节点,正是业内大量设计从28nm迁移到14nm的时候,并且7nm当时还在逐渐普及。并且,越来越多的芯片设计把安全当作一个关键因素,汽车和工业领域尤为突出。
02
芯片良率,难倒巨头
在芯片行业面临流片成功率暴跌的严峻形势下,即便成功完成流片,也并非万事大吉。流片只是芯片生产的开端,后续生产环节同样挑战重重,其中芯片良率低的问题同样棘手,成为制约芯片行业发展的又一大阻碍。
良率是半导体工厂的核心竞争力所在,也被称为是半导体工厂的“生命线”。
芯片良率,指合格芯片的数量与生产出的总芯片数量的比例。即:良率=合格芯片数量/生产的芯片总量 x 100%
例如,如果在一片晶圆上制造了1000个芯片,其中950个是合格的,那么良率就是:良率=(950/1000)×100%=95%
良率通常需要在整个生产过程中进行多个阶段的测量和计算,因为每个生产步骤都有可能引入缺陷,影响最终的良率。通常相应芯片良率需要达到70%或更高才能进入大规模量产阶段。
在行业内,即便强如台积电、三星、英特尔这些巨头,也被芯片良率问题所困扰。
台积电在先进制程良率控制上表现较为出色。在2020年时,台积电在IEEE IEDM会议上披露,其5纳米工艺的测试芯片平均良率为80%,峰值良率超过90%。
据MSN报道,台积电3纳米芯片良率高达80%以上。市场上的巨头如苹果、高通也都纷纷选择了台积电3nm。
台积电2nm的信号比较积极。据了解,2nm制程技术在成熟度上取得了快速进展,其缺陷密度率已与3nm和5nm相当,并采用了新的环绕栅极晶体管(GAAFET)架构。与3nm增强版(N3E)相比,2nm制程的速度提升了10%至15%。目前,台积电的2nm 制程的良率已达到 60% 以上。
相比之下,三星的情况则不容乐观。2nm 工艺良率从年初的 20% - 30% 提升至 40% 以上,其首款采用2纳米工艺的Exynos 2600芯片计划于2025年11月量产。这与前文提到的台积电60%的良率,还有差距。
3nm 工艺问题更为突出。SF3E-3GAE(第一代3nm GAA工艺)的良率在50%~60%之间,未达到最初设定的70%目标。SF3-3GAP(第二代3nm GAA工艺)良率更低,仅为20%左右,远低于预期目标,导致三星在3nm芯片代工市场竞争力不足,甚至自家的Exynos 2500芯片也因良率问题难产。
英特尔在良率数据披露上较为模糊,虽有副总裁表示Intel 4 制程良率高于预期,Intel 3 制程达成整体良率和性能目标,但天风国际分析师郭明錤曾称,2025 年初首批 Intel/IFS 18A 先进制程生产的 Panther Lake 工程样品良率不到 20% - 30%。
不过这一说法遭到英特尔方面驳斥。英特尔投资者关系副总裁John Pitzer在摩根士丹利科技、媒体和电信会议上表示:“总体而言,我们认为Intel 18A的水平能够对标台积电的N3或者N2。我们正按计划推进Intel 18A ,并已宣布将在今年上半年完成首个外部客户的流片工作。”
巨头们在芯片良率上的困境,足见这一难题的棘手程度。
良率提不上去,原因是多方面的。
原材料上,硅片质量、光刻胶均匀度、掺杂剂精度等都会影响良率,比如硅片有杂质、光刻胶不均匀,都会导致芯片性能出问题,而高质量原材料不仅技术要求高,价格也贵。
制造环境和设备也很关键,芯片生产需要超洁净环境,空气中的颗粒都可能造成芯片缺陷,设备的稳定性、精度和维护也很重要,引入新设备成本高,还可能存在技术适配问题。工艺技术上,光刻、蚀刻等流程复杂,现有工艺优化空间有限,新技术如极紫外光刻(EUV)又面临技术和成本难题。
此外,质量管控不到位,生产过程中数据收集和分析不及时,就没法提前发现和解决问题,导致缺陷难以纠正。
03
结语
芯片流片成功率暴跌和良率提升困难,是当前芯片行业必须面对的挑战。
提高流片成功率,要优化设计,可以用AI 辅助设计,提高准确性;加强设计验证,提前发现问题。还要重视人才培养,提升工程师的专业能力。同时,芯片设计企业要和晶圆代工厂、EDA 供应商加强合作,整合产业链资源。
提升芯片良率,要改良制程,优化设计和工艺控制。在设备和材料上,升级设备、选用优质原材料。技术创新也很重要,利用AI 和大数据监控生产线,探索新材料、新工艺。还要建立严格的质量管控体系,从原材料采购到成品全流程监控。
这些问题的解决,需要各方从技术、人才、产业链等多方面努力。