端到端多模态模型

共 1 篇网址

排序

发布更新浏览点赞

MOVA

MOVA（MOSS Video and Audio）是上海创智学院 OpenMOSS 团队与模思智能（MOSI）联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制，在单次推理中同步生成视频与音频输出，具备多语言唇形同步与环境音效生成等能力，支持最高 720p 和最长 8 秒的视听片段生成。

01190

大模型开源工具与社区 # MOVA # 端到端多模态模型 # 音视频同步生成

AI大学堂