扫描打开手机站
随时逛,更方便!
当前位置:首页 > 财经纵横

阿里与英伟达联手:Physical AI如何引领AI技术新变革?

时间:2025-09-25 22:05:13 来源:字母榜 作者:字母榜



在云栖大会上,阿里巴巴宣布其AI平台将全面整合英伟达的Physical AI(物理AI)软件栈,为开发者提供更强大的工具。这一合作不仅标志着AI技术发展的重要转折点,也预示着AI从虚拟世界向物理世界的深度渗透。英伟达CEO黄仁勋在2025年CES大会上明确指出,AI的下一个前沿领域正是物理AI,这一领域蕴含着巨大的商业潜力和技术机遇。

根据市场研究数据,全球工业机器人市场规模预计将从2024年的1544亿元增长至2025年的3000亿美元。其中,AI技术在工业机器人中的应用市场正以21.9%的年复合增长率快速扩张。然而,当前大部分工业机器人仍属于传统自动化设备,依赖预设程序执行固定任务。一旦环境发生变化,如零件位置偏移或形状略有不同,就需要人工重新编程。相比之下,物理AI机器人能够自主适应这些变化,通过实时感知和决策完成任务,显著提升了工业自动化的灵活性和效率。

那么,什么是物理AI?简而言之,物理AI是一种让人工智能从屏幕中走出来,真正进入物理世界的技术。例如,传统AI可以识别出一个杯子并告诉你这是什么,而物理AI不仅能识别杯子,还能判断其重量、材质,计算出抓取它所需的力度,并避免打翻里面的液体。这种差异决定了两者在应用场景上的根本不同。

黄仁勋强调,物理AI的核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化AI生成的内容,使其更符合现实世界的逻辑与规律。物理AI的发展并非一蹴而就,而是英伟达经过多年技术积累和战略布局的结果。早在2021年,英伟达就在GTC大会上提及了物理AI的概念,但真正将其作为核心战略推出是在2024年3月的GTC 2024大会上。黄仁勋在那次大会上首次系统性地阐述了物理AI的愿景,并发布了相关的技术平台和工具链。



在黄仁勋看来,AI的发展经历了三个清晰的阶段:最初是感知AI(Perceptual AI),能够理解图像、文字和声音,这个阶段的代表是计算机视觉和语音识别技术;然后是生成式AI(Generative AI),能够创造文本、图像和声音,以ChatGPT、DALL-E等为代表;现在我们正进入Physical AI(物理AI)的时代,AI不仅能够理解世界,还能够像人一样进行推理、计划和行动。

物理AI的技术基础建立在三个关键组件之上:世界模型(World Model)、物理仿真引擎(Physics Simulation Engine)和具身智能控制器(Embodied Intelligence Controller)。世界模型是物理AI的认知核心,它不同于传统的语言模型或图像模型,需要构建对三维空间的完整理解,包括物体的几何形状、材质属性、运动状态和相互关系。技术上,这通常通过神经辐射场(NeRF)、3D高斯溅射(3D Gaussian Splatting)或体素网格(Voxel Grid)等方法来实现空间表征。

物理仿真引擎则负责实时计算物理交互,这不是简单的预设规则,而是基于偏微分方程求解器的动态计算系统,需要处理刚体动力学、流体力学、软体变形等复杂物理现象。在技术实现上,通常采用有限元方法(FEM)、粒子系统(Particle System)或基于深度学习的可微分物理仿真器。

具身智能控制器是连接虚拟推理和物理执行的桥梁,它接收来自世界模型的预测结果和物理仿真的计算输出,生成具体的控制指令。技术上,这通常基于模型预测控制(MPC)或深度强化学习(DRL)算法,控制器需要处理高维的状态空间和动作空间,同时考虑执行器的物理限制、延迟和噪声。

从系统架构角度,物理AI采用分层设计。感知层集成多模态传感器阵列,包括RGB-D摄像头、激光雷达、IMU、力/扭矩传感器等,关键技术挑战在于传感器融合和实时处理。认知层运行世界模型和物理仿真引擎,这一层的计算密集度极高,需要专门的硬件加速。执行层负责运动规划和控制,技术核心是逆运动学求解和轨迹优化。

在物理AI发布的同时,英伟达还发布了与之对应的完整技术生态系统,包括Omniverse仿真平台、Isaac机器人开发套件、Cosmos世界基础模型等。这是因为物理AI的训练需要大量的物理交互数据,但现实世界的数据收集成本极高。解决方案是基于仿真的数据生成,英伟达通过Omniverse和Cosmos平台生成大规模的合成训练数据,包括各种物理场景、材质属性和交互模式。

然而,仿真环境中训练的模型在现实世界中往往性能下降,这被称为“现实差距”。英伟达正在用仿真到现实的迁移(Sim-to-Real Transfer)技术去弥补虚拟数据和现实数据之间的差距。物理AI对计算资源的需求远超传统AI应用,单个物理AI系统可能需要数百个GPU核心来实时运行。英伟达专门开发了RTX PRO服务器和DGX Cloud平台来支持这种计算需求,系统架构采用分布式计算,将不同的计算任务分配到专门优化的硬件上。

与传统AI系统主要处理文本、图像等数字信息不同,物理AI通过大模型驱动,使机器不仅能够处理数据,还能理解三维世界的空间关系和物理规律。这种技术让AI系统具备了类似生物的空间感知能力,能够在现实环境中进行复杂的物理操作。

举个具体例子来说明这种差异:如果AI生成一段机器人抓取物体的视频,传统的生成式AI可能会创造出物体悬浮在空中、机械臂穿过固体障碍物、或者违反重力定律的画面,因为它只是基于训练数据进行像素级的模仿。而物理AI则会确保生成的内容完全符合物理世界的运作方式——物体会受重力影响下落,机械臂必须绕过障碍物,抓取力度要与物体重量相匹配。

这种技术革新的深层意义在于,它让AI从纯粹的信息处理工具,转变为能够真正理解和操作物理世界的智能系统。传统的AI就像一个只会看书但从未实践的学者,拥有丰富的理论知识却缺乏实际操作经验;而物理AI则像一个既有理论知识又有实践经验的工程师,不仅知道是什么和为什么,更重要的是知道怎么做,能够将抽象的知识转化为具体的行动。

黄仁勋对物理AI的前景极其乐观。他曾在CES上表示,Physical AI将催生超50万亿美元规模的行业变革,涉及1000万家工厂、20万个仓库、未来数十亿计台人形机器人和15亿辆汽车及卡车。这个数字听起来令人震撼,但背后有着坚实的逻辑支撑。黄仁勋认为,物理AI意味着AI不再局限于虚拟世界,而是开始走向现实世界,并将在机器人、物流、汽车、制造等千行百业成为主流应用。

在黄仁勋的规划中,未来将有两款高产量的机器人产品:第一个是自动驾驶汽车,第二个很可能就是人形机器人。这两种机器都需要具有人类般的感知能力,能够应对快速变化的环境,并在几乎没有容错的情况下做出即时反应。他对人形机器人的潜力感到特别兴奋,因为它们最有可能适应为人类设计的环境。

黄仁勋还预言,机器人时代已经到来,未来所有移动的物体都将实现自主运行。这个预言的背后,是对物理AI技术成熟度和应用潜力的深度判断。从技术发展的角度看,随着计算能力的提升、传感器成本的降低、算法的优化,物理AI正在从实验室概念走向商业应用的临界点。

英伟达在物理AI领域的布局可以追溯到多年前对机器人技术的投入。该公司提出的物理AI概念,核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化AI生成的内容,使其更符合现实世界的逻辑与规律。但是英伟达不敢步子迈得太大,与传统AI应用不同,物理AI系统直接与物理世界交互,其错误可能导致严重的安全后果。这要求物理AI系统具备更高的可靠性和安全性标准。英伟达目前的方案是Halos安全系统,这是一个全栈安全系统,可以统一硬件架构、AI模型、软件工具和安全标准,确保物理AI系统在各种环境下的稳定运行。

视角来到阿里这边,他们选择将英伟达物理AI软件栈纳入开发者选项,背后有着深层的战略考量。当前的AI大模型应用主要集中在线上场景,而物理AI试图将整个现实世界融入AI当中。这种从虚拟到现实的跨越,正是阿里云在AI时代需要抢占的制高点。阿里云智能集团董事长兼CEO吴泳铭在云栖大会上表示:生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。这一表态清晰地表明了阿里对物理AI重要性的认识。



阿里云CTO周靖人说过这么一句话,通义千问已开源300+模型,累计下载量超过了6亿。然而,面对物理AI的发展趋势,通义大模型也面临着从二维理解向三维交互转型的挑战。传统的大语言模型擅长处理文本和图像,但在理解物理世界的空间关系、物理规律方面存在天然的局限性。这正是阿里需要引入物理AI技术栈的根本原因。

但,这正好也是阿里的瓶颈。阿里的数据更多来自于互联网,而非线下。这就迫使他们需要找到一个全新的途径,以帮助通义来完成虚拟到物理的转变。李飞飞曾经也说过类似的观点,她认为对于AI而言,如果无法建立三维世界模型,就无法真正理解、操作或重建现实世界。

通过集成英伟达的物理AI软件栈,阿里可以为通义大模型增加空间理解和物理交互能力。这种集成不仅仅是技术层面的叠加,更是从语言智能向空间智能的战略转型。开发者可以利用阿里云的基础设施和通义大模型的语言能力,结合英伟达的物理仿真和机器人控制技术,构建真正能够在物理世界中工作的AI系统。

不过与之相对的,物理AI的发展不是孤立的,它需要与现有的AI技术生态深度融合。大语言模型提供了强大的语言理解和推理能力,计算机视觉技术提供了环境感知能力,机器人技术提供了物理执行能力。物理AI正是这些技术融合的产物。在这个融合过程中,数据流动和处理架构至关重要。物理AI系统需要实时处理来自多个传感器的海量数据,进行快速决策,并控制执行器完成动作。这对计算架构和算法优化提出了极高要求。

云边协同是物理AI部署的重要模式。复杂的AI推理可以在云端进行,而实时的控制决策则在边缘设备上执行。这种架构既能利用云端的强大计算能力,又能满足实时性要求。所以阿里也相当于给物理AI提供了发展的养料。

如果说第一代感知AI让机器学会了看和听,第二代生成式AI让机器学会了创造,那么物理AI则让机器真正学会了行动。然而,物理AI的发展也面临着诸多挑战。首先是技术上的挑战,如何让AI系统在复杂的物理环境中稳定运行,如何降低巨大的计算成本以实现技术的普及化应用,这些都是当前亟待解决的问题。此外,仿真训练与现实应用之间的“现实差距”也是一大难题。尽管仿真可以提供大量数据,但如何确保这些数据在现实世界中的适用性是个关键问题。

物理AI或许不会像某些预测那样迅速颠覆所有行业,但它必将逐步改变我们的工作和生活方式。它不仅是技术的革新,更是对传统行业的颠覆和重塑。随着技术的不断发展和应用场景的拓展,物理AI将成为推动全球经济增长和社会进步的重要力量。