AI正处在L2向L3的关键过渡期,智能体时代才刚刚开始
我们距离AGI还有多远?
作者/ IT时报记者 贾天荣
编辑/ 潘少颖 孙妍
关于AGI(通用人工智能)的时间表,马斯克曾预测,AGI可能会在2026年投入使用;DeepMind联合创始人、首席AGI科学家谢恩·莱格在一次访谈中提到,2028年,人类有50%的概率开发出第一个AGI。
6月19日凌晨,OpenAI CEO山姆·奥特曼在接受采访时表示:“五年前,如果让我或其他人基于软件的认知能力给出AGI的定义,我认为那时的定义现在已经远远被超越了。尽管定义会不断扩展,但人们仍然会同意我们已经越来越接近AGI。”
业界关于AGI的观点众说纷纭,有人视其为洪水猛兽,有人将其看作下一次技术革命,这也引发了关于AGI发展路径的争论:它是即将到来的颠覆性变革,还是一个尚需漫长探索的理想愿景?
在MWC25上海期间,众多行业领袖与顶尖科学家就AGI的演进路径展开了深入讨论,人们也不禁发问:我们距离实现AGI究竟还有多远?
当务之急是让AI能够解决问题
“无论AI如何发展,最终都应服务于人,服务于人的工作和生活。”在荣耀CEO李健看来,“让AI真正走进生活、解决问题,是当前最紧迫的任务”。
如何才能够让AI真正走进生活?山姆·奥特曼曾经提出AI发展的五个阶段:L1聊天者—L2推理者—L3行动者—L4创新者—L5组织者。
“我们正在从‘思考’向‘行动’跨越,AGI不可能突然宣布问世,一定是一个持续演进的过程。”李健表示,当前AI正处在L2向L3的关键过渡期,“当务之急是要让AI能够解决问题,只有让AI落地生根,让用户日常使用起来,才能够真正释放AI的潜力。”
围绕这一需求,当前AI技术正在发生三大结构性变化:首先是从“模型能力”向“落地能力”的转变。未来AI之间的竞争不再是模型参数的大小,而是能否将AI真正部署、运行,并解决实际问题。“能跑起来、干得动的模型,才是好模型。”李健说。
其次,AI的价值定位也在发生变化。从原本的“工具效率”向“结果闭环”转变,AI不再仅仅是辅助工具,而是应成为能够自主完成任务流程的“执行者”。未来的AI应用必须实现结果归因、持续进化,并带来可衡量的价值。
最后,AI产品形态也在转变,从云端计算到切实存在。李健认为,AI不应停留在云端或数据中心,而应深入到每一台设备、每一个场景中,真正成为人类的“贴身伙伴”。
在MWC25上海现场,越来越多的企业将“AI如何解决问题”作为展示重点。
在中国电信展区,AI已深入多个真实生活场景:如支持情绪识别与心情日报推送的儿童陪伴机器人、可进行实物取用的四足陪跑机器人、内置大模型矩阵的天翼AI手机、支持定制化应用调用的AI云电脑等。这些应用背后,是电信级AI基础能力的体现。
联想围绕个人智能和企业智能两大主线,全面展示了在AI终端、AI基础设施、AI解决方案与服务三大业务板块的创新实践与落地成果。其新一代人机交互入口——天禧个人超级智能体,具备AI操控、AI搜索、AI翻译、AI笔记、AI服务五大黄金功能,重新定义智能交互体验,并且确保数据安全和个人隐私保护,让用户像相信自己一样相信AI。
突破场景、性能和信任三大瓶颈
AI从“概念创新”走向“场景落地”,正成为业界共识。
为了实现AI落地,李健提出“两个支柱”概念:一个支柱是硬件,是核心载体,AI硬件不再是模型的外壳,而是与用户共处、共感、共生的“人格延伸”;第二个支柱是Agent,即核心入口。AI Agent不仅是任务执行工具,更是理解用户意图、交付结果闭环的“智能化交互中心”,是用户的数字化分身。
尽管AI技术已取得显著进展,但要真正走向AGI,仍有三大难题尚未解决:场景闭环尚未打通,当前AI在多设备、多场景之间仍然存在割裂,用户在不同设备间调用AI仍显烦琐;性能瓶颈依旧存在,端侧算力不足,内存偏小,难以支撑7B以上的模型运算,推理复杂任务仍需依赖云端计算,造成时延和功耗挑战;信任体系仍未建立,幻觉、隐私、安全、伦理等问题仍是用户的顾虑所在,行业尚未形成统一的治理标准与技术规范。
只有突破场景、性能和信任的三大瓶颈,才能让AI真正走进生活。对此,李健提出三个解决方案:首先是打破数据孤岛,在保证数据隐私和安全的前提下,实现数据共享和训练;其次,打破服务孤岛,建立开放的API机制,整合服务生态;第三,打破设备孤岛,建立开放的通信协议,实现设备的互联互通。只有这样,AI才能真正做到“通、好、全”,为用户带来解放感和自由感。
对于性能闭环的打通,李健认为需要通过端云协同、软硬协同和上网协同来突破算力瓶颈,并提升计算效率,从而让AI更加流畅、高效,提供极致体验。
在信任体系方面,他建议行业要在模型、算法技术、隐私保护标准和AI伦理治理方面共同协作,建立一个更可靠、更可控、更可信的AI系统。
据了解,荣耀将在即将发布的Magic V5中率先落地上述理念,展示让AI真正“跑起来”的能力。
多模态是实现AGI的必经之路
“多模态是实现AGI的必经之路。”大会现场,阿里巴巴集团智能信息事业部副总裁兼首席科学家许主洪指出,现实世界本身就是多模态的,模型要想拥有接近人类的认知能力,必须能整合图像、语音、文本、视频等多种模态,增强上下文理解力,提高可信度与准确率,并大幅降低幻觉发生的风险。
目前,多模态大模型技术主要分为理解型模型和生成型模型。理解型模型主要集中在如何“读懂”不同模态的信息,而生成型模型则专注于如何遵循指令生成高质量的多模态内容,如图片、视频和音频等。
“理解型模型的重点仍集中在视觉与语言领域,但我们希望未来能有处理更多种类的模态。”许主洪表示,阿里巴巴自研的“Qwen2.5-Omni全模态模型”相比传统的视觉语言模型,具备更强的多模态处理能力,不仅能处理图像、视频、文本,还能支持语音,并具备实时双工交互能力。
目前的多模态理解模型大多基于自回归模型框架,而主流的多模态生成模型大多采用扩散模型框架,理解和生成任务基于两套不同的体系。如何将这两种任务统一,是行业内讨论的焦点之一。
“我们预测,未来的多模态大模型将逐步走向统一延伸的多模态范式。”许主洪表示,要实现这一目标,设计统一模型时需回答多个关键的开放式问题:是选用自回归模型、扩散模型还是融合架构?如何实现不同模态之间的编码解码与对齐融合?这些仍有待技术突破。
过去一年,OpenAI的“O系列”模型与DeepSeek的R1等大模型推动了大语言模型推理能力的跃升。如今,业界正在尝试将这一范式扩展到多模态场景,并构建“多模态思维链(Multimodal Chain-of-Thought)”,以增强推理能力。通过在输入、思考与输出三个阶段引入多模态信息,并辅以规则驱动的强化学习,模型的“思维能力”有望得到进一步激发。
“多模态和AI Agent的时代才刚刚开始。”许主洪总结道,尽管AGI的实现仍需解决诸多技术难题,包括多模态大模型的基础能力、Agent核心模块的完善、数据世界的连接与操作、物理世界的控制与交互等,行业面临着巨大的技术挑战,但这些也为未来多模态大模型领域提供了丰富的机会。
排版/ 季嘉颖
图片/ MWC IT时报
来源/《IT时报》公众号vittimes
E N D