再谈空间智能

By author:

September 23, 2024 | 2 minutes read

“在扩散模型的背景下，突然之间，重建和生成开始真正融合。现在，在计算机视觉领域，真的只用了很短的时间，就很难区分重建和生成了。我们突然有了一个时刻，如果我们看到某样东西，或者我们想象某样东西，两者都可以汇聚到生成它上面。对我来说，这对计算机视觉来说是一个非常重要的时刻，但大多数人都错过了，因为我们没有像关注LLM那样关注到这一点” —- 李飞飞与Justin深度解读空间智能

从技术角度来看，重建与生成的融合使得信息拆解-拼装的闭环得以完成，从而能够螺旋迭代提升（更好的重建-> 更好的生成 -> 更好的重建…）。类比一下读书学习，最好的学习理解，就是将书本上的信息，使用自己的话再表达出来，这里也同样实现了信息的拆解、重建、组装的过程。从应用的角度来看，意味着，我们将能够将大自然的造化、设计数字化成为我们创作的源泉，比如游戏创作、影像制作、教育领域。也可以将我们想像中的东西进行具像化，融入现实环境，比如MR、机器人操控。当我们跟机器人下达一个指令的时候，机器人怎样才算是正确理解我们的指令呢，当机器人能够“想像”出来指令实现完成时未来的图景 — 它就能够根据现在与未来的差别，不断的逼近，从而使得物理世界的操控符合预期。