MOVAMOVA(MOSS Video and Audio)是上海创智学院 OpenMOSS 团队与模思智能(MOSI)联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制,在单次推理中同步生成视频与音频输出,具备多语言唇形同步与环境音效生成等能力,支持最高 720p 和最长 8 秒的视听片段生成。090大模型开源工具与社区# MOVA# 端到端多模态模型# 音视频同步生成