CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS667
▸ AI 大模型 / 对话 · SITES

Jodi SITES

中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年5月28日更新 2025年5月29日浏览 667

// 01 Jodi 是什么

Jodi是中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型,旨在通过扩散模型框架实现图像与多标签的联合建模,统一视觉生成与理解任务。


🧠 Jodi 是什么?

Jodi 是一个基于扩散模型的框架,结合了图像域和多个标签域的联合建模,能够同时处理图像生成和多标签预测任务。其核心在于将视觉生成与理解任务统一,通过线性扩散 Transformer 和角色切换机制,实现多任务协同学习。


🚀 如何使用 Jodi?

  1. 获取模型访问 Jodi 的项目页面,下载预训练模型和相关资源。

  2. 准备数据使用 Joint-1.6M 数据集或自定义数据集,确保包含图像及对应的多标签信息。

  3. 配置环境安装所需的依赖库和框架,如 PyTorch 等。

  4. 训练与推理根据提供的脚本进行模型训练,或使用预训练模型进行推理任务。


🔧 主要功能

  • 联合生成同时生成图像和多个标签(如深度图、法线图、边缘图等),确保生成结果在语义和空间上的一致性。

  • 可控生成根据给定的标签组合生成图像,实现对图像特定属性或特征的控制。

  • 图像感知从输入图像中预测多个标签,实现对图像的多维度理解和分析。


⚙️ 技术原理

Jodi 基于线性扩散 Transformer 架构,结合角色切换机制,实现多任务协同学习。通过在 Joint-1.6M 数据集上进行训练,模型能够学习到图像与多标签之间的深层次关联,提升生成与理解任务的性能。


🎯 应用场景

  • 计算机视觉研究作为多任务学习的研究平台,推动视觉生成与理解的统一。

  • 自动驾驶提供多维度的环境感知信息,如深度估计、语义分割等。

  • 机器人视觉增强机器人对环境的理解与交互能力。

  • 图像编辑与生成根据用户指定的标签生成符合需求的图像内容。


📂 项目地址


// 04 常见 问题

Jodi 是什么?
中国科学院计算技术研究所与中国科学院大学联合推出的视觉理解与生成统一模型。
Jodi 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、AI图像编辑工具 等标签。
Jodi 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Jodi 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部