哈萨比斯在2026年1月15日CNBC《The Tech Download》播客与1月18日后续采访中,将世界模型(World Models)作为DeepMind通往AGI的核心战略方向进行了全面阐述。
一、核心定位和主要观点概览
作为诺奖得主、DeepMind CEO,他的观点被视为AI领域的重要风向标,核心基调是:当前大模型仅是AI发展的阶段性成果,真正的AGI必须以世界模型为核心组件,实现对物理世界的深度理解与因果推理。
1.1 核心定义与本质
- 本质定位:世界模型是AI系统内化物理现实、进行模拟预测的能力,而非仅依赖文本概率生成答案。
- 通俗比喻:若大模型是“读万卷书”,世界模型就是“行万里路”;大模型知道“是什么”,世界模型理解“为什么”并能预测“会怎样”。
- 关键能力:能在“脑海”中运行模拟,测试假设,理解重力、摩擦力等物理规则,把握空间结构、时间推移与因果循环。
1.2与当前大模型的核心差异
| 当前大模型 | 世界模型 |
|---|---|
| 擅长文本生成与知识记忆 | 掌握物理直觉与因果推理 |
| 能写出流体力学公式,但不懂水如何流动 | 可模拟水流变化与物体互动 |
| 能描述杯子掉落,却不理解为什么会碎 | 可完整模拟坠落、碰撞、破碎的全过程 |
| 缺乏长期规划能力 | 能预测行动长期影响,进行复杂决策 |
| 是“缸中之脑”,缺乏对现实的直观理解 | 拥有“物理直觉”,能在现实中有效运作 |
1.3 哈萨比斯强调的核心价值
- 科学发现的关键:世界模型让AI能像顶尖科学家一样,通过模拟验证假设,解释未知现象,推动理论创新。
- AGI必备组件:要实现通用人工智能,AI必须理解物理世界,才能在其中自主行动、解决复杂问题。
- 突破当前AI局限:弥补LLM在原创思维、持续学习和长期规划方面的短板,解决“锯齿状智能”问题。
1.4 DeepMind的实践案例
- Genie 3:能从文本/图像生成完整可操作的交互式3D环境,保持长时间物理一致性,被视为世界模型里程碑。
- SIMA 2:基于Gemini技术的3D虚拟世界AI智能体,在Genie生成的环境中行动,体现世界模型与行动能力的结合。
- Veo 3:在建模直觉物理方面表现出色,被哈萨比斯称为“触及更深层次规律”的标志。
1.5 未来发展方向
哈萨比斯认为世界模型将从物理世界扩展到生物学、经济学和人类行为,最终构建能理解和创造各种复杂系统的通用模型,与大模型融合而非取代,共同推动AI向AGI演进。
二、哈萨比斯定义的"世界模型"核心内涵
2.1 本质定义与核心特征
-
哈萨比斯原话:"世界模型不是关于记忆事实,而是关于理解'为什么'和'会怎样'——这是人类智能的核心,也是AGI必须具备的能力"。
-
技术定义:世界模型是AI系统内化物理世界规律、构建可运行模拟的能力,让AI能在"脑海"中预测行动后果、测试假设,而非仅依赖文本概率生成答案。
-
四大核心特征:
-
物理一致性:理解重力、摩擦力、动量等基础物理规则,模拟结果符合现实规律
-
因果推理:把握事件间的因果关系,而非仅识别相关性
-
长期规划:能预测行动的长期影响,进行多步骤复杂决策
-
交互性:可与生成的虚拟环境实时互动,接收反馈并调整行为
-
2.2 与大模型(LLM)的本质差异:从"概率预测"到"理解与模拟"
哈萨比斯反复强调当前大模型的三大根本性缺陷,被他称为"锯齿状智能(Jagged Intelligence)":
-
缺乏物理直觉:能描述公式但不懂原理(如能写流体力学方程却不理解水流)
-
因果推理薄弱:基于统计相关性而非因果关系,易产生逻辑断裂与"幻觉"
-
规划能力有限:仅能进行短期任务规划,缺乏跨时间尺度的长期视角
| 维度 | 当前大模型(LLM) | 世界模型(World Models) | 哈萨比斯核心评价 |
|---|---|---|---|
| 核心本质 | "概率预测机",基于文本数据的模式匹配 | "物理理解者+模拟器",内化世界运行规律 | "LLM是'读万卷书',世界模型是'行万里路'" |
| 对物理世界的理解 | 文字层面的描述能力,缺乏直观认知 | 可模拟水流变化、物体碰撞、结构稳定性等物理过程 | "LLM能描述杯子掉落,却不理解为什么会碎" |
| 推理方式 | 系统1(直觉快思考),基于统计模式 | 系统2(逻辑慢思考),结合搜索与模拟验证 | "需要从概率生成转向可解释的逻辑推理" |
| 规划能力 | 短期任务规划,缺乏长期视角 | 能进行跨时间尺度的复杂规划(如从原料到成品的全流程) | "AGI必须能规划未来,而非仅回应现在" |
| 学习方式 | 主要依赖文本数据训练 | 结合文本、图像、视频、具身经验等多模态数据 | "世界模型需要'具身经验',而非仅'纸上谈兵'" |
三、哈萨比斯强调的战略意义与核心价值
3.1 AGI必备组件:通往通用智能的"圣杯"
哈萨比斯明确指出:通往AGI必须先把两件事做成:
-
世界模型:让AI真正理解物理与空间,获得"物理直觉"
-
自动实验:让AI能动手解决材料、聚变等基础科学问题
他认为,AGI距离实现仅差1-2个关键技术突破,而世界模型正是其中最核心的突破方向之一。
3.2 科学发现的加速器:从"实验试错"到"模拟预测"
哈萨比斯强调世界模型将彻底改变科学研究范式:
-
缩短实验周期:将材料发现、药物研发、核聚变研究等领域的实验周期从数年缩短至数月
-
降低研究成本:通过虚拟模拟减少昂贵的实体实验,提高科研效率
-
拓展研究边界:能模拟人类无法直接观察的极端环境(如黑洞内部、深海高压区)
3.3 突破当前AI局限的关键路径
世界模型被视为解决当前大模型三大核心问题的根本方案:
-
解决"幻觉"问题:基于物理规律的模拟预测,减少无根据的文本生成
-
提升可解释性:模型决策基于可理解的物理规则,而非黑箱式的统计模式
-
增强泛化能力:从基础物理规则出发,能更好地适应新环境与新任务
四、DeepMind的世界模型实践案例与技术进展
哈萨比斯重点介绍了DeepMind在世界模型领域的三大里程碑成果:
4.1 Genie 3:交互式3D世界生成器
-
核心能力:能从文本/图像生成完整可操作的交互式3D环境,保持长时间物理一致性
-
技术突破:帧率达24fps,分辨率720p,支持直升机飞行、水上摩托驾驶、飓风场景模拟等复杂交互
-
哈萨比斯评价:"Genie 3是世界模型的里程碑,它让AI能'想象'并'进入'虚拟世界,进行自主探索与学习"
4.2 SIMA 2:3D虚拟世界智能体
-
核心能力:基于Gemini技术,在Genie生成的环境中实现"感知-推理-行动-反思"闭环
-
交互创新:可接受用户手绘草图指定位置、路径或物体,执行多步骤复杂任务
-
技术意义:体现世界模型与行动能力的结合,为具身智能奠定基础
4.3 Veo 3:深度物理建模引擎
-
核心能力:在建模直觉物理方面表现出色,能生成具有物理一致性的视频内容
-
哈萨比斯评价:"Veo 3触及了更深层次的物理规律,是世界模型的基础视觉与物理理解组件"
五、技术实现路径与未来发展方向
5.1 哈萨比斯提出的四大技术路径
-
多模态融合:整合文本、图像、视频、3D点云等数据,构建对世界的综合表征
-
神经符号结合:将神经网络的学习能力与符号系统的推理能力相结合,既擅长模式识别又能进行逻辑推理
-
分层建模:从基础物理规则到复杂系统(如生态系统、经济模型)进行分层构建,提高模型效率与可解释性
-
强化学习与模拟训练:通过在虚拟环境中进行大量试错学习,提升模型的决策与规划能力
5.2 2026年三大预测与应用前景
哈萨比斯预测2026年AI领域将呈现三大趋势:
-
代理化系统成熟:能够自主执行复杂任务的AI代理逐渐投入实际应用
-
机器人技术突破:结合世界模型的机器人可能在12-18个月内取得显著进展
-
世界模型效率提升:更高效的模型将赋能更复杂的规划与推理
核心应用领域:
-
科学研究:加速材料发现、药物研发、核聚变研究等领域的突破
-
机器人与具身智能:提升机器人在复杂环境中的适应能力,实现更灵活的操作与决策
-
数字孪生:构建城市、工厂、电网等复杂系统的高精度数字孪生,用于优化设计与运行
-
游戏与娱乐:生成动态、可交互的虚拟世界,重塑游戏开发与体验方式
六、行业共识与分歧
6.1 行业共识
世界模型是AI发展的重要方向,能弥补当前大模型的关键短板,这一点已成为行业普遍认可的观点。
