Jodi 的定价模式为：unknown。

Jodi 是一款收录于 AI工具导航的 AI 大模型 / 对话，适合关注 AI图像编辑工具、tech-cv 的用户了解和使用。中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。你可以通过本页查看官网入口、所属分类、相关标签和同类工具，快速判断它是否适合自己的工作流。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Jodi SITES

中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年5月28日更新 2025年5月29日浏览 668

// 01 Jodi 是什么

Jodi是中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型，旨在通过扩散模型框架实现图像与多标签的联合建模，统一视觉生成与理解任务。

🧠 Jodi 是什么？

Jodi 是一个基于扩散模型的框架，结合了图像域和多个标签域的联合建模，能够同时处理图像生成和多标签预测任务。其核心在于将视觉生成与理解任务统一，通过线性扩散 Transformer 和角色切换机制，实现多任务协同学习。

🚀 如何使用 Jodi？

获取模型：访问 Jodi 的项目页面，下载预训练模型和相关资源。
准备数据：使用 Joint-1.6M 数据集或自定义数据集，确保包含图像及对应的多标签信息。
配置环境：安装所需的依赖库和框架，如 PyTorch 等。
训练与推理：根据提供的脚本进行模型训练，或使用预训练模型进行推理任务。

🔧 主要功能

联合生成：同时生成图像和多个标签（如深度图、法线图、边缘图等），确保生成结果在语义和空间上的一致性。
可控生成：根据给定的标签组合生成图像，实现对图像特定属性或特征的控制。
图像感知：从输入图像中预测多个标签，实现对图像的多维度理解和分析。

⚙️ 技术原理

Jodi 基于线性扩散 Transformer 架构，结合角色切换机制，实现多任务协同学习。通过在 Joint-1.6M 数据集上进行训练，模型能够学习到图像与多标签之间的深层次关联，提升生成与理解任务的性能。

🎯 应用场景

计算机视觉研究：作为多任务学习的研究平台，推动视觉生成与理解的统一。
自动驾驶：提供多维度的环境感知信息，如深度估计、语义分割等。
机器人视觉：增强机器人对环境的理解与交互能力。
图像编辑与生成：根据用户指定的标签生成符合需求的图像内容。

📂 项目地址

官方网站：https://vipl-genun.github.io/Project-Jodi/

// 04 常见问题

Jodi 是什么？

中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。

Jodi 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 tech-cv、AI图像编辑工具等标签。

Jodi 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Jodi 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5331.html 官网或下载入口https://vipl-genun.github.io/Project-Jodi/分类与标签体系AI 大模型 / 对话、tech-cv、AI图像编辑工具

◇ ◇ ◇

"关系待挖掘"
暂无搭档工具数据

▸ 我来推荐

Jodi 工具资料卡

NavXD2025年5月29日

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染...

AI 图像AI 工具

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容...

AI 大模型 / 对话AI 工具

Jodi SITES

// 01 Jodi 是什么

Jodi是中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型，旨在通过扩散模型框架实现图像与多标签的联合建模，统一视觉生成与理解任务。

🧠 Jodi 是什么？

🚀 如何使用 Jodi？

🔧 主要功能

⚙️ 技术原理

🎯 应用场景

📂 项目地址

// 04 常见 问题

// 05 资料 来源

// 04 常见问题

// 05 资料来源