随着大语言模型技术进步放缓,一场围绕“世界模型”的全新AI竞赛正在科技巨头之间悄然展开。
“世界模型”将技术带入制造、医疗等实体领域,其潜在市场规模可能“高达100万亿美元”。英伟达Omniverse与仿真技术副总裁Rev Lebaredian对此信心满满。
随着大语言模型技术进步放缓,一场围绕“世界模型”的全新AI竞赛正在科技巨头之间悄然展开。这一趋势标志着AI领域竞争焦点可能正从语言领域转向对物理世界的理解和模拟。
据英国《金融时报》报道,谷歌DeepMind、Meta和英伟达等公司正试图通过开发一种新型系统来取得领先。这些系统不再仅仅依赖语言文字,而是通过学习视频和机器人数据来理解并驾驭物理世界。
01 为何转向:大语言模型触顶,世界模型成新赛道
科技巨头将目光投向“世界模型”,一个核心驱动力在于业界普遍认为大语言模型正触及其能力天花板。
尽管各大公司投入巨资,但OpenAI、谷歌和马斯克的xAI等机构发布的新一代LLM在性能上的飞跃已开始放缓。
Meta首席AI科学家、被誉为现代AI“教父”之一的Yann LeCun一直警告称,LLM永远无法实现人类那样的推理和规划能力。
他认为,世界模型未来可能用于数字和物理领域的复杂预测和规划。
例如,给定一个脏乱的房间(初始状态)和一个整洁的房间(目标状态),世界模型可以推理出一系列清洁行动,而不仅仅是根据观察到的模式进行操作。
世界模型的概念源自人类大脑形成的心智模型,我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解,从而形成“模型”,这些模型帮助我们预测和感知世界。
02 竞相布局:全球科技巨头的世界模型战略
近几个月,多家AI公司相继发布了在“世界模型”领域的进展,凸显了这一赛道的升温。
谷歌DeepMind
谷歌DeepMind上月发布了Genie 3,该模型能逐帧生成视频并考虑过去的交互,改变了传统模型一次性生成整个视频的方式。
Genie 3项目联席负责人Shlomi Fruchter表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练AI,且“无需承担在现实世界中犯错的后果”。
Genie 3作为第三代世界模型,已成为首个支持实时交互的世界模型。用户只需要输入文本提示,Genie 3就能以每秒24帧的速度,实时生成一个可以自由探索的动态世界。
Meta
Meta则试图模仿儿童通过观察世界进行被动学习的方式,用原始视频内容训练其V-JEPA模型。
由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究实验室(FAIR)已在6月发布了该模型的第二版,并开始在机器人上进行测试。
Meta的AI“世界模型”可以更好地理解3D环境和物理对象的运动。
例如,V-JEPA 2可以认识到一个球从桌子上滚下来的球将掉落,或者隐藏的对象并不只是消失。
英伟达
与此同时,芯片巨头英伟达的首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自“物理AI”,这些新模型将彻底改变机器人领域。
在2025年CES展会上,黄仁勋宣布推出Cosmos世界基础模型,专为物理交互、模拟工业环境和驾驶环境的高高质量生成而构建。
英伟达正利用其Omniverse平台创建和运行此类仿真,以支持其向机器人领域的扩张。
Cosmos模型分为三类:Nano(适用于低延迟和实时应用)、Super(高性能基线模型)和Ultra(最高质量和保真度输出)。
创业公司
由AI先驱Fei-Fei Li创立的初创公司World Labs正在开发一种模型,可以从单张图片生成类似视频游戏的3D环境。
视频生成初创公司Runway也于上月推出了一款利用“世界模型”创建游戏场景的产品。
其首席执行官Cristóbal Valenzuela指出,与以往模型相比,“世界模型”系统能更好地理解和推理场景中的物理规律。
03 应用前景:从自动驾驶到机器人技术的革命
世界模型的潜在市场被认为极其庞大。英伟达Omniverse与仿真技术副总裁Rev Lebaredian表示,“世界模型”将技术带入制造、医疗等实体领域,其潜在市场规模可能“高达100万亿美元”。
自动驾驶
对于自动驾驶等科技领域,世界模型可能触发新的变革。世界模型通过自己“造数据”,成为提升自动驾驶训练效率的有效方式之一。
其不仅可以通过生成式大模型生成带有预测性质的视频数据,实现Corner Case多样化训练,还可以采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
蔚来在2024年7月发布智能驾驶世界模型NWM。这是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型,能够在短时间内推演出上百种可能发生的场景,并寻找到最优决策。
理想汽车也在其智驾方案中引入了“重建+生成的世界模型”,利用3D高斯模型做场景重建,利用扩散模型做场景生成,以重建仿真和生成仿真两种技术路线,为智驾方案提供了“错题集”和“模拟题”。
机器人技术
世界模型有望推动机器人技术进步,通过增强机器人对周围环境和自身的感知能力,帮助它们更好地理解所处情境并推理可能的解决方案。
在机器人领域,真实环境下的训练成本极高。一台机械臂学习“抓起物体”的任务,可能需要上千次失败实验。世界模型提供虚拟环境,让机器人先在仿真里试错,再迁移到现实,大幅降低成本。
娱乐产业
“世界模型”的近期应用之一是在娱乐行业。World Labs联合创始人Justin Johnson预测,未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的3D世界,大大降低开发成本和时间。
代表好莱坞动画师和漫画家的工会动画协会(Animation Guild)一项2024年研究估计,人工智能有可能在未来两年内颠覆美国10多万个电影、电视和动画工作岗位。
04 技术挑战:数据、算力与物理模拟的难题
巨大的计算需求:训练和运行“世界模型”需要比当前生成模型更多的计算能力。例如,Sora单次训练算力需求或可达到GPT-3 175B的8.2倍,而世界模型的算力需求更大,这对企业的技术和资金实力提出了极高的要求。
幻觉和偏见问题:像所有AI模型一样,“世界模型”也会产生幻觉并内化训练数据中的偏见。
训练数据限制:缺乏足够广泛而又具体的训练数据可能会加剧上述问题。构建这些模型需要收集海量的物理世界数据和算力,这目前仍是一项未被攻克的重大技术挑战。
复杂行为模拟:目前的模型难以准确捕捉世界居民(如人类和动物)的行为。
Meta的LeCun等人认为,实现由新一代AI系统驱动、具备人类水平智能的机器可能还需要十年时间。
英伟达、谷歌和Meta等公司的竞争只是世界模型赛道的一个开始。随着技术逐步成熟,世界模型有望在虚拟世界生成、机器人技术和AI决策等领域带来重大突破。
未来几年,世界模型将从研究概念,进入大厂的资源清单。高算力成本、数据难题、应用落地的不确定性,决定了它短期内不会成为“下一个 ChatGPT”。但也正因如此,它成了大厂不能缺席的方向。