3DTown
T-03工具 长尾 OPEN-SOURCE

3DTown

普林斯顿大学、哥伦比亚大学和 Cyberever AI 联合推出的开源 AI 框架,旨在从单张俯视图图像生成逼真且连贯的三维城镇场景。

01

3DTown 是什么

3DTown 是由普林斯顿大学、哥伦比亚大学和 Cyberever AI 联合推出的开源 AI 框架,旨在从单张俯视图图像生成逼真且连贯的三维城镇场景。该项目于 2025 年 5 月发布,已在 GitHub 开源,并在 arXiv 上发表了相关论文。


🧠 技术亮点

1. 区域化生成(Region-Based Generation)

3DTown 首先将输入的俯视图图像分解为多个重叠的区域,然后利用预训练的 3D 对象生成器(如 Trellis)对每个区域进行独立的三维建模。这种“化整为零”的策略有助于提高生成结果的分辨率和细节保真度,同时增强图像与三维模型之间的对齐性。

2. 空间感知三维修复(Spatial-Aware 3D Inpainting)

在完成各个区域的三维建模后,3DTown 采用空间感知的三维修复技术,通过掩码修正流(Masked Rectified Flow)填补各个区域之间的几何缝隙,确保整个场景的结构连续性和一致性。

3. 免训练框架(Training-Free Framework)

与许多需要大量三维数据进行训练的模型不同,3DTown 是一个免训练的框架。它直接利用预训练的三维对象生成器,无需额外的三维监督或微调,降低了使用门槛,提升了实用性。


📊 性能评估

在多项评估指标上,3DTown 均优于当前的先进基线模型:

  • 几何质量相比 Trellis 提升 37%,相比 TripoSG 提升 55%。

  • 布局连贯性GPT-4o 评估中得分为 87.9%,而 Hunyuan3D-2 仅为 12.1%。

  • 纹理保真度生成的三维模型纹理逼真、一致,接近真实世界的效果。

这些结果表明,3DTown 能够从单张图像生成高质量的三维城镇场景,且在几何结构、空间一致性和纹理保真度方面表现出色。


🌍 应用场景

  • 游戏开发与虚拟现实快速生成逼真的三维城镇场景,提升开发效率和沉浸感。

  • 城市规划与建筑设计辅助设计师从二维图纸快速构建三维模型,进行可视化分析。

  • 教育与科研作为教学和研究工具,帮助学生和研究人员理解三维建模和计算机视觉技术。


🔗 项目信息


3DTown 的推出,为从单张图像生成高质量三维场景提供了新的解决方案,具有广泛的应用前景和研究价值。

AI大学堂