最近,杭州六小龙群核科技正在冲刺港股 IPO,这家公司有个有意思的地方是它跟李飞飞在做同样的事情:空间智能。但到底什么是空间智能,其实国内还没人完整解释过这个概念。
要回答这个问题,我们需要回到一个更底层的概念 —— 世界模型。当 AI 从二维走向三维,从“看懂”走向“行动”,世界模型就成为连接数字与物理世界的关键。但什么样的模型才配得上“世界”二字?如果按李飞飞的定义 —— 它必须能生成遵守物理定律的空间、能处理多模态输入、能预测世界随时间的变化 —— 那么当前大多数标榜“世界模型”的系统,其实仍在二维的延长线上徘徊。
真正在三维空间维度构建世界的玩家,全球范围内屈指可数:李飞飞的 World Labs 是其中之一,杭州的群核科技是另一个。而群核的特殊之处在于,它不仅是“构建者”,更是“可落地的构建者”。
一、世界模型的本质:三维,而非二维的延伸
当前主流的技术路线可以分为两类。
一类是以 Sora、Genie 3 为代表的“视频生成派”。它们通过海量视频数据训练,能够生成极为逼真的动态画面。但这类模型的本质仍是 2D 像素序列的预测 —— 它学会了让上一帧在视觉上像下一帧,却不理解墙的厚度、光的反射、物体的重力。这就导致一个根本性缺陷:生成的视频可能在几秒钟内惊艳夺目,但一旦视角切换,就会出现物体“瞬移”、场景“穿帮”的问题。原因很简单:它从未真正构建过三维空间。
另一类是以 World Labs、混元为代表的“3D 场景生成派”。它们尝试直接生成可漫游的三维空间,从方法论上更接近“世界模型”的本质。李飞飞团队发布的 Marble 平台,支持用户从一张照片或短视频“提升”为可探索的 3D 世界。但这类路线面临一个共同的瓶颈:高质量 3D 数据的匮乏。如果每一个角度都需要生成合理的内容,数据缺口就会暴露,时常出现“离开固定视角就崩坏”的情况。
那么,还有第三条路吗?
二、群核的技术路径:结构化理解 + 空间一致性生成
群核科技的选择,是从源头上构建“物理正确”的三维世界。这个路径建立在两个核心能力之上:空间语言理解和多视角一致生成。
首先是“空间语言”能力。今年 8 月,群核开源了空间语言模型 SpatialLM 1.5。与传统多模态模型不同,SpatialLM 输出的不是自然语言描述,而是包含墙线坐标、物体尺寸、物理参数的结构化“空间代码”。给它一张图,它输出的不是“这是一张客厅”,而是一个完整的 3D 信息:沙发长 2.2 米、距墙 50 厘米、承重 300 公斤,茶几的材质、门的开合方向 —— 这些正是 AI 理解物理世界所需要的“空间语法”。
这种能力的价值在于:它生成的场景不仅是“看起来像”,而且是“可计算、可编辑、可交互”的。对于机器人训练而言,这至关重要 —— 机器人需要的不是一张漂亮的客厅图片,而是知道哪里是墙、哪里是门、茶几能不能推动。
其次是“空间一致性”生成能力。群核开源的另一个模型 SpatialGen,走的是“多视角扩散 +3D 高斯重建”的技术路线。它不是直接生成视频,而是先生成一个真实的 3D 空间,再在这个空间内“拍摄”视频。这就像在虚拟世界架设了一台摄像机 —— 因为世界本身是三维的,无论镜头如何切换,物体的位置、光影的投射始终保持一致。
现场演示显示,基于 SpatialGen 生成的 12 秒漫游视频,第 1 秒与第 12 秒的窗户、摆件位置完全吻合。这解决了困扰 AI 视频领域许久的“视角切换就穿帮”的痛点。
三、可落地的关键:结构化带来的可编辑性
如果说 World Labs 的 Marble 展示了 3D 生成的想象力,那么群核的差异化优势在于“可落地”—— 这来自于结构化能力带来的可编辑性。
在很多 3D 生成模型中,输出是一个“黑箱”场景:你不能拆解它,不能修改墙的位置,不能调整家具的材质。但群核生成的场景基于其矩阵引擎,用户可以直接调整参数:把墙体厚度从 24 厘米改为 18 厘米,把卧室门从东墙移到南墙,场景会自动适配这些变化。
这种可编辑性在产业应用中至关重要。影视制作需要反复调整场景布局,工业设计需要精确修改产品参数,机器人训练需要批量生成不同布局的环境 —— 这些场景都要求模型输出的是“可操作的资产”,而非“不可变的快照”。
华策影视(300133)与群核的合作,正是看中了这一点:在虚拟片场中,导演需要随时调整场景、切换视角,只有可编辑的 3D 世界才能支撑这种创作自由度。
四、为什么是群核?数据飞轮的壁垒
技术路径的选择背后,是资源禀赋的差异。群核之所以能走通这条路,源于一个独特的“工具-数据-模型”飞轮。
酷家乐作为全球最大的空间设计平台,积累了超过 4.79 亿个 3D 模型及 5 亿个结构化 3D 空间场景。这些数据的特殊性在于:它们不是从互联网抓取的碎片化资产,而是由专业设计师创建的、物理正确的、可计算的空间数据。每一张设计图,都在生成结构化的 3D 信息。
基于这些数据,群核 2018 年就开源了全球最大的室内空间数据集 InteriorNet,今年又开源了 3D 高斯语义数据集 InteriorGS。数据沉淀加速模型迭代,模型升级提升工具体验,工具优化带来更丰富的数据 —— 这个闭环一旦形成,就构成了难以复制的竞争壁垒。
五、估值视角:技术底座如何打开想象空间
回到 IPO 语境,这套技术能力如何支撑群核的估值?
首先,它决定了群核的技术壁垒高度。在空间智能这个新兴赛道,真正能做“物理正确世界模型”的玩家极少。群核基于结构化数据的生成能力,与市面上绝大多数“视觉系”模型形成代差,这构成了其稀缺性。
其次,它打开了业务边界。可落地的技术意味着可以进入更多产业场景 —— 从影视虚拟制作到工业孪生,从具身智能训练到电商 3D 营销。每一个场景都可能发展成独立的大市场,而群核的底层能力是通用的。
最后,它指向了平台型公司的可能性。如果群核能够将自己的空间智能能力通过 Aholo 平台开放给更多开发者,它就有可能从“工具提供商”升级为“空间智能基础设施”。届时,市场给它的估值锚将不再是垂直 SaaS,而是 AI 平台。
当然,技术领先不等于商业成功。但至少从技术维度看,群核在空间智能这场竞赛中占据了一个独特的生态位:既有构建三维世界的能力,又有让世界可落地的结构化工(850102)具。这个生态位一旦确立,其估值逻辑将不再局限于 SaaS,而会向更广阔的智能底座方向演进。

