联想用万全智算,画出中国AI的山脊

如果我们把欧亚大陆看作一个整体,会发现中国是一个有几座山脉的超大半岛,横断山脉与天山、阴山、昆仑山、南岭、大兴安岭,一横五纵的山脊,描绘出了中华大地的轮廓。

一方水土的休养生息,需要山脉作为屏障;一项科技的崛起与发展,需要基础设施作为支撑。

伴随着“人工智能+”行动的开展,AI技术在中国迎来了新的发展高峰。但如果没有基础设施层面AI算力的有效供给,AI算法的发展,企业对AI应用都将变成无本之木,无源之水。

发展AI技术,首先需要构筑算力山脉。通过智能算力,把AI产业切实保护起来,支撑起来。尤其需要注意的是,这种构筑并不是简单的算力供给,而是需要切实应对企业在智算运用过程中的挑战,提升算力效率,降低算力门槛。

中国AI的算力山脉,究竟如何勾勒?

联想认为,异构智算就是答案。

500

4月18日,第十届联想创新科技大会Tech World在上海举行。期间,联想提出融合了公共大模型、个人级大模型和企业大模型的混合式人工智能是未来大势所趋。这个过程中,AI大模型将在各个行业深入落地,由此带来了智能算力的指数级增长,对中国AI基础设施提出了全新要求。

为了帮助千行百业应对混合式人工智能带来的基础设施之变,联想ISG提出了一横五纵的发展战略。

一横五纵背后,是联想希望用平台打通,以产品组合的方式,打造更可满足当下AI需求的基础设施集群,画出属于中国AI的山脊。

AI时代,智算就是山脊

如果一片土地没有山脊保护,就很容易受到风沙与冷空气的侵蚀,从而各种自然灾害频发。中华文明能够延绵不绝,也有赖于几条雄伟山脊的护佑。

在AI领域,如果说算法是土壤,应用是庄稼,那么算力就是保护这片土地的山脊,只有山脊够高够强,土地才有蓬勃生机。

2023年,中国出现了“百模大战”的盛况,涌现出了庞大的AI应用场景与相应的智算需求。

根据《2023—2024年中国人工智能计算力发展评估报告》,2023年中国AI算力市场规模将达到664亿元,同比增长82.5%。预计到2030年,人工智能驱动的全球算力将增长500倍。

过快的AI算力需求扩张,带来了一系列相关问题。如果说AI算力是整个AI产业生态的山峦屏障,那么今天的情况就是AI算法与应用发展过快,社会各界对AI期望极大。在基础设施层,我们需要快速去填补AI算力的空白,为中国AI筑起算力高山。

500

想要实现这个目标,需要破解几项关键的挑战。中国AI算力当前的核心难点在于:

1.算力供需失衡。AI算力处在供给远不能满足需求的情况,且将长期保持。这就需要我们珍惜已有且面向未来的所有AI算力,最大化满足多元智算需求。

2.算力应用卡点多。企业应用AI算力,需要依赖于多层级的智能化基础设施,端、边、云、网等条件缺一不可,需要进行全方位适配AI算力的基础设施更新。在企业智算实践中,面临着诸如针对场景匹配算法,提升AI算力利用率等问题。能力多样、切中要害的异构智算平台建设迫在眉睫。

3.算力生态不完善。智算基础设施的推广和普及,需要依赖软硬件多方面的适配,以及行业开发者的配合,这就导致智算生态的建设至关重要。

面对这些问题与挑战,联想ISG回归基础设施更新的基本逻辑,为中国AI发展画下了一横五纵的山脊。

一横五纵,画出山川连绵

想筑造AI时代的智算山脊,需要先有一张蓝图。

在下笔画这张蓝图之前,需要先思考两个问题。横向来看,AI时代多元计算成为必然趋势,需要一个平台承载广泛且多元的算力需求。纵向来看,AI大模型的训推效果取决于诸多条件,存、算、网等基础设施缺一不可。

横可承载智算,纵有产品周全,这样的“画意”驱动着联想落笔画出智算山川。在联想的“AI for All”战略下,联想ISG推动了基础设施领域全面适配AI的深入变化,以“端-边-云-网-智”新IT架构打造混合式AI基础设施。

500

(联想集团副总裁、中国基础设施业务群总经理陈振宽)

联想集团副总裁、中国基础设施业务群总经理陈振宽认为,“在人工智能1.0时代,基于全球智慧和本地创新,联想打造了全面的基础设施产品组合,包括计算、存储、网络、边缘和超融合,并在通用计算、科学计算和AI计算等不同算力领域获得大量的最佳实践,帮助千行百业的客户取得成功”。陈振宽表示,“如今大模型开启的AI 2.0时代已经迈着大步朝我们走来,我们需要重塑过去积累的技术,来全面升级联想基础设施”。

分析联想在AI基础设施层面的策略与行动,可以将其归纳为“一横五纵”。

“一横”,即异构智算平台。

通过实现对通用计算集群、科学计算集群和AI算力集群进行统一管理,并对多种CPU、GPU、DPU等处理器进行异构管理调度,联想打造了更加符合AI计算需求的异构算力底座。

在AI基础设施领域,联想聚焦三大领域的创新。首先是为用户匹配经过验证优化的最佳算力。第二是赋能用户充分利用算力,提升计算效率。第三则是以先进的液冷技术帮助用户节能增效且突破芯片散热的瓶颈。

500

联想万全异构智算平台,汇集了这三大能力,为AI 2.0时代带来了五大技术创新,其中包括:

1.用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。

500

2.逼近GPU算力极限的GPU内核态虚拟化。联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。

3.提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例,采用集成了联想集合通信库的联想异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。

4.减少AI训练中断时间的AI高效断点续训技术。联想异构智算平台对大量的AI训练故障进行了特征采样,开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升训练效率,以千卡集群为例,每月可节约上百万元算力费用支出,让宝贵的AI算力持续可用。

5.AI与HPC集群超级调度器。针对混合集群做资源共享需求,联想AI与HPC超级调度器架构于AI和HPC调度之上,能够切换AI和HPC的调度,从而满足科学计算等场景的HPC与AI计算间的调度需求。它可以切换“语言”分别指挥AI和HPC调度器,可跨集群全局动态管理和调度算力资源,一小时内自动完成跨集群资源调度和共享。

在五大技术创新的合力下,异构智算平台形成了一个能高度自动化完成AI全流程开发的平台。

500

从用户视角看,向平台输入场景需求和数据后,即可将计算过程交给平台自动完成,平台就像一个计算魔盒,能够自动优化数据和模型,自动匹配和调度算力,自动对计算的全过程进行监控,直到最终输出模型或是推理服务。

以异构智算平台为基础,企业多样化、实践化的AI算力需求都可以得到妥善满足,并且能够获得高可用、高效率、高能效的AI计算体验。

AI算力需要与软硬件基础进行配合,才能得到最大化的价值释放。因此,联想打造了“五纵”,即服务器,存储,数据网络,软件及超融合以及边缘基础设施产品。

在基础设施市场中,联想多样化的产品取得了显著优势。根据IDC发布的《2023第四季度中国 x86服务器市场追踪报告》显示,联想环比增速居中国x86服务器市场第一,领先市场整体增速80个百分点。而在去年11月举办的第五届中国超级算力大会(ChinaSC 2023)公布的最新一期“中国高性能计算机 TOP100 排行榜”中,联想上榜43套,获得年度数量总份额冠军。这也是联想第九次问鼎并蝉联中国高性能计算TOP100数量份额第一。

通过五大产品线的并行与配合,可以满足中国AI基础设施广泛而多元的迭代需求。

以一横五纵的山脊为基础,智算生态可以生生不息,智算应用可以旷野花开。

山青水绿,滋养生态万全

有了山脊护佑,还需要在山脊间的平原播种万物,培育生态。为了让一横五纵的智算山脊真正发挥价值,联想还需要为智算生态添加动力。

在异构智算的大潮下,联想基础设施业务群成功跻身人工智能基础设施领域全球三甲。与此同时,联想基础设施业务群正在中国市场开启一场复兴之旅。去年,在中国市场实现了销售额21%的大幅增长,并且赢回了一系列重要客户。在进一步挖掘智算潜力,激活市场空间,联想需要生态的支持,也需要为生态伙伴创造发展机遇。

为此,联想希望在智算领域搭建一个万全生态。所谓万全,是指生态包罗万法,可以保用户算力以周全,保用户的AI基础设施投资回报以周全。

为了搭建这样的生态,联想希望在生态中贡献硬件能力和异构智算平台的集群管理调度能力,并且要实现对算力生态的包容,即硬件会兼容xPU生态硬件,异构智算平台会集成xPU底层软件,并且以extended UI的方式对接集成AI工具链生态,让各类智算需求都能在开放的平台生态中得到满足。

500

在Tech World的“异构智算 多元生态”联想智算产业生态创新论坛上。联想集团与中国智能计算产业联盟共同发起并成立异构智算产业生态联盟,联合产业头部生态伙伴共建联想万全生态。据介绍,异构智算产业生态联盟框架由AI芯片层、AI设备与系统层和AI平台与应用层,能够实现从IaaS平台、AI训练与推理到行业场景解决方案的全覆盖。

目前,异构智算产业生态联盟首批共计13家成员单位已加盟。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。

面向未来,万全异构智算生态将为处于算力选择期的中国用户提供丰富的一站式的方案来适应多样化的AI应用场景,并且将通过生态全链条的紧密合作调优,不断提升算力效率,破解AI带来的算力荒与能耗荒。

异构智算生态的蓬勃发展下,我们已经可以在一横五纵的智算山脊中,看到中国智算生态的盎然生机。

山泽浩瀚,以振智能中国

在技术与产品的山脊下,在智算生态的勃发中,联想的智算能力正在一个个产品,一个个案例中生长出来。

在产品方面,不久之前联想刚刚成功交付了可搭载国产AI算力芯片的联想问天WA5480 G3服务器。其具备多芯算力、灵活拓扑、安全可靠三大特色,能够满足自主化与AI算力需求的双重结合。

500

在应用方面,联想已经成为大量领军企业的智能化合作伙伴,异构智算的价值释放到了千行百业当中。在吉利汽车、紫金云、阿里云等核心用户的应用案例中,都可以见到联想一横五纵产品带来的惊喜。

一横五纵战略的核心落脚点,在于“实”。

归根结底,将AI大模型从一种技术上的可行性,变为千行百业生产场景中的可用性,需要一系列先决条件的搭建和满足。异构计算、算法匹配、能耗问题、生态合作需求等问题,都摆在从AI大模型到新质生产力之间。二者之间,什么都不做就是万水千山,有心为之就是通衢大道。

500

联想ISG打造的一横五纵,就是这样一条通衢。其从现实场景,真实行业的智算需求出发,有问题就解决问题,需要产品就打造产品,需要生态就建设生态。最终让AI的山泽浩瀚,借由智算山脊的地势,流入千行百业的田野。

新质生产力,由此而盘活;中国产业智能化的脚步,由此而加速。

在智算山脊之下,中国AI正草长莺飞,蓬勃万全。

全部专栏