Jodi 的定价模式为：unknown。

当前浏览中

频道AI 大模型

浏览量676

▸ AI 大模型 · 应用工具

Jodi 应用工具

中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年5月28日更新 2025年5月29日浏览 676

// 01 Jodi 是什么

Jodi是中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型，旨在通过扩散模型框架实现图像与多标签的联合建模，统一视觉生成与理解任务。

🧠 Jodi 是什么？

Jodi 是一个基于扩散模型的框架，结合了图像域和多个标签域的联合建模，能够同时处理图像生成和多标签预测任务。其核心在于将视觉生成与理解任务统一，通过线性扩散 Transformer 和角色切换机制，实现多任务协同学习。

🚀 如何使用 Jodi？

获取模型：访问 Jodi 的项目页面，下载预训练模型和相关资源。
准备数据：使用 Joint-1.6M 数据集或自定义数据集，确保包含图像及对应的多标签信息。
配置环境：安装所需的依赖库和框架，如 PyTorch 等。
训练与推理：根据提供的脚本进行模型训练，或使用预训练模型进行推理任务。

🔧 主要功能

联合生成：同时生成图像和多个标签（如深度图、法线图、边缘图等），确保生成结果在语义和空间上的一致性。
可控生成：根据给定的标签组合生成图像，实现对图像特定属性或特征的控制。
图像感知：从输入图像中预测多个标签，实现对图像的多维度理解和分析。

⚙️ 技术原理

Jodi 基于线性扩散 Transformer 架构，结合角色切换机制，实现多任务协同学习。通过在 Joint-1.6M 数据集上进行训练，模型能够学习到图像与多标签之间的深层次关联，提升生成与理解任务的性能。

🎯 应用场景

计算机视觉研究：作为多任务学习的研究平台，推动视觉生成与理解的统一。
自动驾驶：提供多维度的环境感知信息，如深度估计、语义分割等。
机器人视觉：增强机器人对环境的理解与交互能力。
图像编辑与生成：根据用户指定的标签生成符合需求的图像内容。

📂 项目地址

官方网站：https://vipl-genun.github.io/Project-Jodi/

// 02 核心功能

核心定位中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 tech-cv、AI图像编辑工具。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 大模型 / 对话定位和 tech-cv、AI图像编辑工具标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

Jodi 是什么？

中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。

Jodi 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 tech-cv、AI图像编辑工具等标签。

Jodi 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Jodi 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5331.html 官网或下载入口https://vipl-genun.github.io/Project-Jodi/分类与标签体系AI 大模型 / 对话、tech-cv、AI图像编辑工具

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

Grok Imagine 1.0

Grok Imagine 1.0 是 xAI（由 Elon Musk 支持的人工智能公司）推出的多模态生成系统，可基于自然语言提示生成图像或短视频，支持图像编辑、文本渲染...

AI 图像AI 工具

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容...

AI 大模型 / 对话AI 工具

Jodi 应用工具

// 01 Jodi 是什么

Jodi是中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型，旨在通过扩散模型框架实现图像与多标签的联合建模，统一视觉生成与理解任务。

🧠 Jodi 是什么？

🚀 如何使用 Jodi？

🔧 主要功能

⚙️ 技术原理

🎯 应用场景

📂 项目地址

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源