Depth Anything 3 由谁开发？

Depth Anything 3 由 ByteDance-Seed 开发。

Depth Anything 3 如何收费？

Depth Anything 3 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 大模型

浏览量199

▸ AI 大模型 · 应用工具

Depth Anything 3 应用工具

Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型，可从任意数量与任意视角的图像／视频输入中恢复空间一致的 3D 几何结构，包括深度图、相机位姿、三维点云与新视图合成，非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网 GitHub收藏 0

收录 2025年12月4日更新 2025年12月4日浏览 199

// 01 Depth Anything 3 是什么

Depth Anything 3 界面截图 — Depth Anything 3 · 界面预览

什么是 Depth Anything 3

Depth Anything 3（简称 DA3）是由 ByteDance-Seed 团队开发并于 2025 年发布的一款开源 3D 视觉重建模型。它的项目主页是 depth-anything-3.github.io。depth-anything-3.github.io+1

与传统专为单一任务 (例如单目深度估计、立体视觉、多视图重建) 设计的模型不同，Depth Anything 3 旨在成为 “通用视觉几何 (visual geometry) 基础模型” —— 即同一个模型 /架构就能处理多种几何任务，包括：从单张图像预测深度 (monocular depth estimation)、多视角 (multi-view) 深度估计与几何融合 (geometry fusion)、相机位姿 (camera pose) 估计、3D 高斯 (3D Gaussians) 估计用于新视图渲染 (novel-view synthesis) 等。GitHub+2depth-anything-3.github.io+2

其核心理念是“极简建模 + 通用表示 (depth-ray representation)” —— 使用单一标准 Transformer（例如 vanilla DINO 编码器）作为骨干网络，不需要复杂定制架构，也不用多任务繁重设计，仅通过预测每像素的深度 + 光线 (ray) 信息 (即 origin + direction + depth) 就能还原空间结构。GitHub+2CSDN博客+2

通过这种设计，DA3 在多个几何任务与数据集上都取得了领先表现，并公开了模型、代码与预训练权重 (Apache-2.0 许可)。GitHub+2CSDN博客+2

Depth Anything 3 的核心能力与技术亮点

极简架构 + depth-ray 表示

传统 3D 重建 /多视图 /SLAM /结构光方法通常需要复杂的 pipeline (特征匹配、视差估计、三角测量、条件优化、多阶段网络)，而 DA3 只用一个普通 Transformer + 一个统一的 “深度 + 光线 (depth-ray)” 表示 (depth map + ray map)，显著简化模型结构。GitHub+2depth-anything-3.github.io+2

具体做法是，对每个像素预测两个结果：

Depth map：每个像素到摄像机 /视点的深度 (距离)
Ray map：每个像素对应的一条射线 (origin + direction)，将相机位姿与投影关系隐式编码在像素级别

然后通过 P = origin + depth * direction，可以将像素映射为 3D 空间坐标，组成点云或几何结构。这样不需要显式预测旋转矩阵 /相机参数，也不依赖复杂多阶段优化。CSDN博客+1

这种 design-by-simplicity（简化设计）使得 DA3 在效率、泛化性与可扩展性方面具备天然优势。showapi.com+2CSDN博客+2

多任务 & 多输入视角支持

DA3 是一个通用模型 (foundation model)，支持多种输入设置：

单张 RGB 图像 (monocular) → 单目深度估计
多张不同视角图像 /视频帧 (multi-view 或 video) → 多视图深度 + 结构重建
已知 /未知摄像机位姿 (pose-conditioned /pose-free) → 自动估计 /预测几何结构
输出不仅仅是深度图，还包括 3D 点云、3D 高斯 (用于 novel-view 渲染)、相机位姿估计、几何一致性 (geometry consistent) 表示等。GitHub+2alphaxiv.org+2

因此，无论你是希望对单张照片提取场景的深度 /距离关系，还是将多张图片重构为 3D 场景 /重建室内 /实景 /物体 /视频帧，DA3 都是一个统一而强大的工具。

性能领先 + 通用基线 (SOTA)

根据官方及第三方评测 /基准 (visual geometry benchmark, pose estimation, multi-view depth, novel-view synthesis 等)：

相比前代模型 (例如 Depth Anything 2 / DA2)，DA3 在单目深度估计、几何一致性、视角重建等方面表现更优。GitHub+2depth-anything-3.github.io+2
在多视角 /多任务几何估计任务上 (包括相机姿态估计、几何重建、点云生成、新视图合成) 超越此前主流模型 (例如 VGGT 等) —— 相机 pose 精度提升约 35.7%，几何准确性提升约 23–25%。alphaxiv.org+2depth-anything-3.github.io+2
模型仅使用公开学术数据训练 (无专有 /闭源数据)，具有良好泛化能力，对室内 /室外 /物体 /环境均适用。GitHub+2CSDN博客+2

开源 + 多格式 /多工具生态支持

DA3 的代码、模型权重在 GitHub 开源 (Apache-2.0 license)，并提供多种导出格式 (depth 图、.ply 点云、glb/3D 模型、3DGS 视频等)，方便与 3D 软件 /VR、游戏引擎、SLAM 系统、Web 3D 查看器 /可视化工具整合。GitHub+2GitHub+2

此外社区已经基于 DA3 构建了多个集成项目 (如 Blender 插件、ComfyUI 节点、ROS2 支持、Web/VR 查看器等)，扩展了 DA3 的实际应用边界。GitHub+2GitHub+2

Depth Anything 3 的典型应用场景与适用用户

3D 艺术 /视觉内容创作 /游戏 /VR /AR

对于 3D 艺术家、游戏开发者、VR/AR 内容创造者、虚拟现实设计师等 —— DA3 能将普通照片 /多张图片 /视频帧转换成 3D 模型 /点云 /mesh /场景重建数据。适用于：

将真实世界照片快速重建为可编辑 3D 模型 /场景
为游戏 /虚拟现实环境生成真实感场景 /地图 /关卡基础
制作 3D 漂浮视图 (novel-view) /视角转换 /动画 /VR 浏览 /沉浸式内容
将旧照片 /视频资料用于 3D 化 /保存 /虚拟重建

机器人 /自动驾驶 /SLAM /导航 /计算机视觉研究

DA3 内置几何估计 +相机 pose 恢复 + 多视图融合 + 点云输出 +实时 /批处理支持，非常适合：

SLAM /Simultaneous Localization And Mapping (通过多视角或视频构建环境地图)
自动驾驶 /无人驾驶系统对环境的深度 /结构感知 (尤其是多摄像头 /多视角情况)
机器人定位 /避障 /路径规划 /环境重建 /三维理解
研究者或视觉算法工程师进行 3D 重建、几何基线测试、视觉几何研究 /实验

摄影 /影视 /内容重制 /文化遗产 /建筑 /室内设计

对于摄影师 /视觉重制工程师 /室内设计 /建筑 /文化遗产数字化 /修复 /虚拟展示领域：

将照片 /航拍 /多视角采集图像 → 重建 3D 场景 /建筑 /室内 /遗迹 /文物
用于建筑 /室内设计 /可视化 /虚拟漫游 /规划 /仿真 /展示
为影视制作 /虚拟漫游 /数字博物馆 /文化遗产保护提供可视 3D 数据

教学 /研究 /学术探索 /开源 3D 社区

对于计算机视觉 /深度学习 /几何 /图形学教师 /学生 /研究者 /爱好者：

用作 3D 视觉 /几何 /重建 /新视图合成 /深度估计 /pose 恢复 /点云处理等教学 /研究 /演示 /实验平台
学习 /测试 /比较 /评估 3D 几何基础模型与传统方法 /baseline /新模型
推动开源社区 /工具生态 (与 Blender /ComfyUI /ROS /Three.js /VR /WebGL 等) 的整合与发展

Depth Anything 3 的优势与局限／注意事项

优势总结

✅ 架构简洁，但能力强 — 单一普通 Transformer + depth-ray 表示即可胜任多种几何任务，无需复杂定制
✅ 通用 /多任务 /多输入 /多输出 — 单目 /多视 /视频 /未知 pose /已知 pose，全覆盖
✅ 性能领先 /SOTA — 在多项几何任务和数据集上超过既有模型 (如 VGGT、DA2 等)
✅ 开源 + 易集成 — Apache-2.0 许可 + 多导出格式 + 丰富社区 /插件 /工具生态
✅ 强泛化 /适用范围广 — 室内 /室外 /物体 /环境 /视频 /多场景适用

局限 /需要注意

⚠️ 资源 /硬件要求 /部署复杂性 — 虽然模型架构简洁，但高分辨率、多帧、多视角 /融合、3D 输出任务可能需要较高计算 /显存 /GPU 支持。
⚠️ 预测结果仍需后处理 /人工调优 — 尽管深度 + 光线表示 +预测效果优异，但在真实世界复杂场景 (低光、反射、透明、极端视角) 下，几何重建可能出现误差，需要人工校正 /后处理。
⚠️ 对数据输入质量依赖较高 — 输入图像质量 (分辨率、清晰度、视角覆盖、光线条件) 直接影响深度估计 /重建效果，不保证对所有图像都有一致高质量输出。
⚠️ 并非万能 — 对极端 /抽象 /艺术风格 /非现实场景效果可能有限 — 对于漫画 /插画 /艺术渲染 /非真实照片 /高度风格化图像，其几何推理 /深度估计可能不准确。
⚠️ 版权 /使用 /导出注意 — 虽开源模型免费，但使用输出 (3D 模型 /重建场景 /商业用途) 时仍需注意输入图像版权、输出用途合规性与法律风险。

// 02 核心功能

核心定位Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型，可从任意数量与任意视角的图像／视频输入中恢复空间一致的 3D 几何结构，包括深度图、相机位姿、三维点云与新视图合成，非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 tech-cv、price-open-source、tech-dl。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 大模型 / 对话定位和 tech-cv、price-open-source、tech-dl 标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

Depth Anything 3 是什么？

Depth Anything 3 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 tech-cv、price-open-source、tech-dl 等标签。

Depth Anything 3 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Depth Anything 3 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6221.html 官网或下载入口https://depth-anything-3.github.io/分类与标签体系AI 大模型 / 对话、tech-cv、price-open-source、tech-dl

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与...

AI 大模型 / 对话AI 工具

Depth Anything 3 应用工具

// 01 Depth Anything 3 是什么

什么是 Depth Anything 3

Depth Anything 3 的核心能力与技术亮点

极简架构 + depth-ray 表示

多任务 & 多输入视角支持

性能领先 + 通用基线 (SOTA)

开源 + 多格式 /多工具生态支持

Depth Anything 3 的典型应用场景与适用用户

3D 艺术 /视觉内容创作 /游戏 /VR /AR

机器人 /自动驾驶 /SLAM /导航 /计算机视觉研究

摄影 /影视 /内容重制 /文化遗产 /建筑 /室内设计

教学 /研究 /学术探索 /开源 3D 社区

Depth Anything 3 的优势与局限／注意事项

优势总结

局限 /需要注意

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源