3DTown 是由普林斯顿大学、哥伦比亚大学和 Cyberever AI 联合推出的开源 AI 框架,旨在从单张俯视图图像生成逼真且连贯的三维城镇场景。该项目于 2025 年 5 月发布,已在 GitHub 开源,并在 arXiv 上发表了相关论文。
🧠 技术亮点
1. 区域化生成(Region-Based Generation)
3DTown 首先将输入的俯视图图像分解为多个重叠的区域,然后利用预训练的 3D 对象生成器(如 Trellis)对每个区域进行独立的三维建模。这种“化整为零”的策略有助于提高生成结果的分辨率和细节保真度,同时增强图像与三维模型之间的对齐性。
2. 空间感知三维修复(Spatial-Aware 3D Inpainting)
在完成各个区域的三维建模后,3DTown 采用空间感知的三维修复技术,通过掩码修正流(Masked Rectified Flow)填补各个区域之间的几何缝隙,确保整个场景的结构连续性和一致性。
3. 免训练框架(Training-Free Framework)
与许多需要大量三维数据进行训练的模型不同,3DTown 是一个免训练的框架。它直接利用预训练的三维对象生成器,无需额外的三维监督或微调,降低了使用门槛,提升了实用性。
📊 性能评估
在多项评估指标上,3DTown 均优于当前的先进基线模型:
几何质量:相比 Trellis 提升 37%,相比 TripoSG 提升 55%。
布局连贯性:GPT-4o 评估中得分为 87.9%,而 Hunyuan3D-2 仅为 12.1%。
纹理保真度:生成的三维模型纹理逼真、一致,接近真实世界的效果。
这些结果表明,3DTown 能够从单张图像生成高质量的三维城镇场景,且在几何结构、空间一致性和纹理保真度方面表现出色。
🌍 应用场景
游戏开发与虚拟现实:快速生成逼真的三维城镇场景,提升开发效率和沉浸感。
城市规划与建筑设计:辅助设计师从二维图纸快速构建三维模型,进行可视化分析。
教育与科研:作为教学和研究工具,帮助学生和研究人员理解三维建模和计算机视觉技术。
🔗 项目信息
3DTown 的推出,为从单张图像生成高质量三维场景提供了新的解决方案,具有广泛的应用前景和研究价值。
数据统计
3DTown访问数据评估
本站AI工具导航提供的3DTown页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年5月25日 下午3:38收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。



