高德发布全球首个基于3DGS数据训练的3D原生城市世界模型ABot-Earth0.5
高德地图刚刚发布的ABot-Earth0.5正在颠覆传统3D建模方式。这款全球首个3D原生城市世界模型,通过直接从3D数据训练实现端到端场景生成,效率提升1000倍。本文将深度解析其创新的训练框架、推理机制和自动化交付管线,看它如何让3D城市场景创作进入AI时代。

6月8日,阿里巴巴集团旗下高德正式发布ABot-Earth0.5——全球首个完全基于3D数据训练、工程可用的3D原生城市世界模型。依托3D原生技术架构与高德自有的3D数据积累,ABot-Earth0.5率先实现了城市级3D场景的全AI端到端生成。
与传统“先采集、后拟合”的3D城市建模方式相比,ABot-Earth0.5不再采用“从2D图像蒸馏3D结构”的技术路径,而是直接以3D数据训练模型,使其建立起对三维空间的原生理解,端到端一次性生成3DGS格式的城市场景。
用户仅需输入一张卫星图或一段文字,即可在一张消费级单卡上快速生成3D城市,生成效率较传统模式提升约1000倍。
原生3D路径在理论上虽具备显著优势,但落地并不容易:原始3DGS数据难以被大模型直接、高效地用于训练;同时,公里级原生3D场景的连续生成也极具挑战。ABot-Earth0.5在数据表征、解码架构与推理策略上进行系统性创新,打通了从原生3D模型训练到场景生成的全流程。

在训练环节,ABot-Earth0.5首创直接面向3DGS点云的压缩-生成框架,该框架能够将包含数百万基元的高质量真实世界3DGS场景编码到紧凑的隐空间,并从中生成全新的场景,有效解决了3DGS无序性等问题,让模型能直接“阅读”大体量的3D数据。并且依托高德自有的三维数据训练,ABot-Earth0.5确保了生成内容与真实环境的几何和空间一致性。
在推理环节,ABot-Earth0.5为实现公里级别的广域生成,提出了一种高效的滑窗推理(Sliding-Window Inference)机制。该机制通过在重叠区域进行智能融合,将分块生成的场景一致拼接,实现公里级广域连续构建,保证了模型生成内容的空间连续性。
在模型生成阶段,ABot-Earth0.5引入跨域自适应模块,有效弥合卫星影像与三维训练数据在分辨率上的域差异(Domain Gap);同时内置的多层次细节解码器(LOD)使生成结果自带远近景深,无需后处理即可适配不同视距的流畅漫游。
在交付环节,ABot-Earth0.5构建了完备的自动化管线,输出的是原生可渲染的3D城市场景。用户可直接将生成的内容导入Unity、Unreal Engine等主流引擎,添加交互逻辑后即可用于实际生产。
目前,ABot-Earth0.5正式开放内测,用户可前往官方网站(abot-earth.amap.com)提交申请,直观感受空间智能技术对传统3D生产方式的重构。
项目资源:
技术报告: https://github.com/amap-cvlab/ABot-Earth-0.5/blob/main/tech-report.pdf

起点课堂会员权益





内测申请还要填一堆信息,能不能直接给个在线demo玩玩?
说白了就是让AI直接学会3D空间结构,不用绕道2D图片再转,所以又快又准。
技术路线确实激进,效率提升很诱人,但公里级场景的几何精度和纹理质量是否有实际验证?滑窗拼接的融合区域如果出现错位,后期手工修复成本可能抵消效率优势。