MOVA 的定价模式为：unknown。

当前浏览中

频道AI 大模型

浏览量199

▸ AI 大模型 · 应用工具

MOVA 应用工具

MOVA（MOSS Video and Audio）是上海创智学院 OpenMOSS 团队与模思智能（MOSI）联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制，在单次推理中同步生成视频与音频输出，具备多语言唇形同步与环境音效生成等能力，支持最高 720p 和最长 8 秒的视听片段生成。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网 GitHub收藏 0

收录 2026年2月6日更新 2026年2月6日浏览 199

// 01 MOVA 是什么

工具名称

MOVA（MOSS Video and Audio）

项目地址

官方页面：https://mosi.cn/models/mova
GitHub 代码：https://github.com/OpenMOSS/MOVA
模型集合（Hugging Face）：https://huggingface.co/collections/OpenMOSS-Team/mova

工具类型

开源端到端音视频生成基础模型

发布组织

上海创智学院 OpenMOSS 团队与模思智能（MOSI）联合发布

许可协议

Apache‑2.0 开源许可（模型权重、训练与推理代码全部开放）

结构化属性表

属性	描述
名称	MOVA（MOSS Video and Audio）
类型	音视频同步生成基础模型
发布	上海创智学院 OpenMOSS 与 MOSI Intelligence
许可	Apache‑2.0
支持时长	最长 8 秒
支持分辨率	360p / 720p
输入类型	文本 / 图像+文本
输出类型	音视频组合
核心架构	双塔跨模态融合
特性	同步生成、唇形对齐、环境音效
模型来源	GitHub & Hugging Face
主要场景	内容生成、游戏、教育、媒体 (ComfyUI Wiki)

核心技术能力

端到端音视频同步生成

MOVA 在单次模型推理过程中同时生成高保真视频与音频，避免了传统级联流水线中音画不同步的问题。

异构双塔架构

模型采用视频塔与音频塔异构结构，并通过双向交叉注意力机制融合两种模态，使视频帧与音频波形在时间上保持紧密对齐。

精准唇形同步

在多语言语音与人物对话场景中，MOVA 可实现毫秒级口型与语音波形对齐，达到较高的同步精度。

场景化环境音效生成

MOVA 能根据生成的视频内容自动合成环境音效，包括背景氛围声、物体交互声等，使视听片段更具空间感与语义一致性。

多输入驱动模式

支持纯文本提示输入与图像+文本联合输入两种模式，以驱动视频与音频同步生成任务。

输入与输出规范

支持输入类型

纯文本提示：自然语言描述视觉场景、动作事件或对话内容。
图像+文本提示：静态图像作为参考素材与文本描述结合使用，有助于控制生成风格与细节。

输出类型

同步生成的视听片段：视频与配套音频组合输出。
多语言口型一致性结果：在对话视频中实现语音与面部运动的对齐。
环境音效与空间声反馈：根据场景自动合成的环境声音。

输出规格

最长支持 8 秒 视听内容生成
最高支持 720p 分辨率生成
提供 360p 和 720p 两种模型版本选择

技术模块详解

模态融合模块

负责在推理阶段将视频帧与音频信号特征通过交叉注意力网络进行对齐融合，实现实时同步生成。

多语言同步单元

设计用于支持多语种的口型与语音对齐，对话与语音生成任务中可保持跨语言一致性。

环境音感知模块

根据视觉场景语义预测与合成对应的环境音效，提升生成视频的沉浸感。

系统需求与部署

软件依赖

Python 环境及相关深度学习与推理框架支持（如 PyTorch、加速库等）
端到端训练与微调代码开源，可复现训练流程与推理脚本。

硬件运行环境

推荐部署于支持 CUDA GPU 的服务器或本地工作站环境
两个版本（360p 与 720p）提供不同资源需求的权衡选择。

应用场景（结构化）

创意内容生成

生成短片视听内容、角色动画与对话场景等，用于 Vlog、娱乐片段或多模态内容展示。

多语言视听创作

支持中英文等多语言口型精确对齐，适用于跨语言对话视频的自动生成。

影视与媒体生产

为影视前期创意、故事板设计或试拍预览提供视听素材生成基础。

游戏与交互体验原型

作为游戏剧情片段、互动场景背景或角色对话生成工具的底层引擎。

教育与沉浸式展示

用于教育短片、历史情境重现或沉浸式教程内容生成。

使用流程（结构化）

步骤 1：环境搭建

安装 Python 3.x 环境与依赖包。
拉取 MOVA 项目仓库并安装项目依赖。

步骤 2：模型下载

使用 Hugging Face CLI 下载 MOVA-360p 或 MOVA-720p 权重。

步骤 3：推理设置

配置运行参数（如分辨率、随机种子等）。
选择纯文本提示或图像+文本混合提示输入。

步骤 4：音视频生成

运行推理脚本生成同步视频与音频输出。
查看生成结果并根据需要微调提示内容。

步骤 5：可选微调

使用项目提供的 LoRA 微调脚本和数据集进行定制化训练。

限制与注意事项

当前生成片段最长为 8 秒，不适合高时长长片生成任务。
生成质量依赖提示设计、资源配置和模型版本选择。一般认为更高资源版本可改善细节。
对 GPU 计算资源有一定要求，低资源设备可能不适合高质量输出。一般认为需要优化部署方案。

// 02 核心功能

核心定位MOVA（MOSS Video and Audio）是上海创智学院 OpenMOSS 团队与模思智能（MOSI）联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制，在单次推理中同步生成视频与音频输出，具备多语言唇形同步与环境音效生成等能力，支持最高 720p 和最长 8 秒的视听片段生成。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 price-open-source。
使用入口已记录可访问入口，可通过本页主按钮跳转。