NEWS
AI玩具机器人、儿童益智玩具等最新动态

李飞飞:空间智能、大模型正重塑机器的“世界观”

日期:2025-12-01 作者:AI玩具汇

二十年前,李飞飞主导创建的ImageNet犹如一束火种,点燃了深度学习的革命,奠定了现代AI发展的基石。而今,面对席卷全球的AI浪潮,她再次将目光投向更远的前沿——她坚信,未来十年AI的真正突破将来自于「世界模型」与「空间智能」的构建。

在近日Lenny Rachitsky的深度访谈中,李飞飞不仅回顾了AI从“技术寒冬”走向“遍地开花”的历程,更首度揭秘了一段鲜为人知的创业秘辛:就在九到十年前,自称AI公司无异于“商业自杀”,而今却成为每家企业争相标榜的身份。她指出,大数据、神经网络与GPU构成了现代AI的“黄金三件套”,但真正的未来,在于让AI理解我们所处的三维世界。

她强调,人类是“具身智能体”,我们通过与空间的互动构建认知。而当前机器人等领域面临的数据困境,正呼唤一种能够融合感知、推理与物理交互的“世界模型”。

这场从二维识别迈向三维理解的认知革命,不仅关乎技术演进,更将重新定义人机共生的未来。在这场一个多小时的对话中,李飞飞搭建了一座通往AI下一个十年的阶梯——让我们看到,空间智能不仅是技术的必然走向,更是机器理解人类、融入现实世界的认知桥梁。

 

从“看见”到“理解”:多模态大模型重塑空间智能

人类的认知本质上是多模态的。我们不仅能辨认出杯子,还能判断它的位置、它相对于桌子的关系,甚至预测它被推倒后的运动轨迹。过去的AI将这种能力分解为物体检测、深度估计等孤立任务,而如今,多模态大模型的崛起,正推动一场从 “分解的专用模型”到“整合的通用智能” 的范式革命。

这场革命的核心,是让AI学会在图像、文本和三维空间之间进行“翻译”。

• OpenAI的CLIP模型率先展示了跨模态对齐的强大能力,为理解图像和语言的语义关联奠定了基础。

•  随后,斯坦福大学的PointCLIP将这种能力延伸至三维点云,实现了用自然语言检索三维形状。

• MIT的Text2NeRF则能根据文本描述直接生成三维场景,准确率相比早期方法提升了约22个百分点,打开了从语言到三维创造的大门。

这些技术如同一位精通多国语言的“空间翻译官”,正在图像、文字与三维模型之间架起一座坚实的认知桥梁。

 

GPT-4V:无需3D地图的“空间想象”能力

如果说上述技术仍在构建显式的三维模型,那么OpenAI的GPT-4V则展示了一条更接近人类本能的路径:无需精确的三维重建,也能进行复杂的空间推理。

研究表明,GPT-4V能够:

推断视角变换后的场景外观(“如果从反方向看,窗户会在哪?”),在专业评测中准确率甚至超过了部分人类专家。

理解物体间的遮挡关系,预测动态的物理交互(如多米诺骨牌的连续倒塌)。

这种能力并非来自传统的几何算法,而是通过海量的多模态数据训练,让模型在参数中隐式地学习了物理世界的投影规律和变换原理。这挑战了计算机视觉的经典假设——空间理解未必需要精确的3D模型,也可以源于对统计规律的经验性掌握,这与人类的认知方式更为接近。

 

从虚拟到现实:空间智能的落地实践

理论上的突破正迅速转化为触手可及的应用,它们完美呼应了李飞飞所说的“人类可以从空间智能中受益”。

• 机器人领域:谷歌的OmniGrasp模型结合CLIP的语义与三维几何网络,让机器人能听懂“抓起桌子上靠近红色杯子的蓝色方块”这样的指令,抓取成功率高达85.7%,远超传统方法。

• 设计与创意:英伟达的Omniverse平台集成GPT-4V,用户只需描述“创建一个有两张米色沙发的北欧风客厅”,系统便能快速生成并允许实时调整。这彻底改变了传统工作流,将设计民主化。

• 零售与教育:虚拟试衣系统降低了15%的退货率;交互式3D解剖模型让学生通过语言与虚拟器官互动,极大地提升了教学效果。

尽管前景广阔,但我们离真正的“世界模型”仍有距离。当前技术面临三大挑战:

第一是精确度不足:难以判断绝对尺寸和精确距离。

第二是物理理解局限:对复杂光影、透明材质和非刚体变形(如布料、液体)的处理能力仍然薄弱。

第三是计算成本高昂:处理高分辨率图像仍需0.5-2秒,难以满足自动驾驶等实时需求。

为攻克这些难题,学界正积极探索下一代技术:

• 将扩散模型应用于三维生成,如3D-Diffusion,在复杂纹理和几何细节的保真度上提升了18%。

• 为大型语言模型注入显式三维表征,如3D-LLM项目,在精确几何理解任务中性能提升15%-20%,使其从“纸上谈兵”的学者变为“有实战经验”的专家。

• 推动模型轻量化,并采用更丰富的数据以缓解文化、建筑风格等偏见。

 

写在最后

从ImageNet赋予计算机“视觉”,到如今大模型赋予机器“空间感”,我们正在见证AI认知能力的又一次跃迁。正如李飞飞所言,AI没有任何是‘人为’的,它现在与将来所能做的,完全取决于人类自身。”

这场由空间智能引领的革命,将如同互联网改变信息获取方式一样,从根本上改变我们感知、理解与设计物理世界的方式。尽管在计算效率、精确度与适应性方面仍存挑战,其强大的零样本学习与语义理解能力已为解决长期难题提供了新路径。

随着算法、算力与应用的协同演进,空间智能技术将从实验室走向现实,深刻改变人类感知、理解与设计物理世界的方式。