当前浏览中
频道AI 音频
浏览量7
▸ AI 音频 · 应用工具

JoyAI-Echo 应用工具

JoyAI-Echo 是京东开源的长音视频生成模型,生成分钟级多镜头、音画同步故事视频,支持对话式实时编辑;仅限学术非商用,需高端 GPU。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
GitHub收藏 0
收录 2026年6月24日更新 2026年6月24日浏览 7

// 01 JoyAI-Echo 是什么

JoyAI-Echo 界面截图
JoyAI-Echo · 界面预览

快速结论

JoyAI-Echo(JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation · 京东 JD Joy Future Academy)是京东开源的长音视频生成模型,能生成分钟级、多镜头、音画同步的故事视频,并支持实时对话式编辑。截至 2026-05(论文),为 inference-only 发布,采用 LTX-2 社区许可,仅限学术非商用。国内开发者可经 GitHub / HuggingFace 获取权重。

适合谁优先使用

  • 研究长视频 / 音视频联合生成的算法人员
  • 做 AIGC 视频 demo 的实验室
  • 想试分钟级连贯叙事生成的开发者
  • 拥有 H100/A100 级算力的团队

核心能力拆解

分钟级多镜头

可生成约 5 分钟的连贯多镜头故事。

音画联合同步

联合生成视频与音频并保持同步。

跨模态记忆库

成对跨模态 memory bank 保障故事级一致性。

实时对话编辑

用户用对话指令实时编辑生成内容。

蒸馏加速

DMD 蒸馏生成器,约 7.5× 推理加速。

和同类工具怎么选

需求优先考虑判断标准
分钟级带音频的连贯叙事JoyAI-Echo长音视频 + 音画同步
单镜头短视频文生视频通用 T2V 模型更轻量
商用项目另选商用授权模型JoyAI-Echo 仅非商用

国内平替:京东自家开源,国内可直接下载,是少见的长音视频开源方案。

限制与避坑

  • 仅限学术研究 / 非商用(LTX-2 社区许可)。
  • 显存门槛高:模型权重 ~46GB + 文本编码器 ~24GB,峰值 GPU 46–50GB。
  • inference-only 发布,未放训练代码。
  • 规格:1280×736 @ 25fps × 241 帧;环境 Python 3.11 / PyTorch 2.8 / CUDA 12.8。

NavXD 使用建议

想研究"分钟级、带声音、可对话改"的长视频生成、且有高端 GPU 时,JoyAI-Echo 值得一试;商用或低显存场景请另选方案。

常见问题

JoyAI-Echo 免费吗?

开源免费,但仅限非商用(LTX-2 社区许可)。

国内能用吗?

能。京东开源项目,GitHub / HuggingFace 均可下载。

能商用吗?

不能,许可仅限学术与非商用用途。

// 02 核心 功能

  • 核心定位JoyAI-Echo 是京东开源的长音视频生成模型,生成分钟级多镜头、音画同步故事视频,支持对话式实时编辑;仅限学术非商用,需高端 GPU。
  • 分类索引当前归档在 AI 视频,方便和同频工具横向比较。
  • 能力标签关联标签包括 开源、多模态、视频生成、京东、长视频。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI 视频 定位和 开源、多模态、视频生成 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

JoyAI-Echo 是什么?
JoyAI-Echo 是京东开源的长音视频生成模型,生成分钟级多镜头、音画同步故事视频,支持对话式实时编辑;仅限学术非商用,需高端 GPU。
JoyAI-Echo 适合哪些场景?
可优先参考它所属的 AI 视频 分类,以及 开源、多模态、视频生成、京东、长视频 等标签。
JoyAI-Echo 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
JoyAI-Echo 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI 音频 全部