CURRENTVIEWING
CHAI 图像
VIEWS544
▸ AI 图像 · SITES

OmniAvatar SITES

OmniAvatar 是由浙江大学与阿里巴巴联合开发的开源音频驱动全身 avatar 视频生成模型,支持精确 lip‑sync、自然身体动作、文本控制和背景调节,适用于播客、教育、娱乐等多场景,高效、可定制。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年7月2日更新 2025年7月2日浏览 544

// 01 OmniAvatar 是什么

什么是 OmniAvatar?

OmniAvatar 是一款最新开源的全身 avatar 视频生成框架,融合了视听语言-动作 (VLA) 模型,允许用户通过音频、文本提示与参考图像,自动生成具有自然肢体动作、精准嘴唇同步的真人风格短视频。其核心组件包括像素级多层次音频嵌入和 LoRA 微调架构,显著提升生成质量与可控性。


技术核心详解

像素级多层次音频嵌入

OmniAvatar 首创将音频特征融合至 latent 空间图像像素级表示,通过 wav2vec2 提取音频,映射至 latent 视频帧,并在不同 DiT 模块层级中注入。这种 pixel-wise embedding 提升 lip-sync 的精度与肢体动作的连贯性

以 LoRA 微调的高效训练

为了保持底层基础模型(如 Wan2.1-T2V)原始泛化能力,同时增强音频适配能力,OmniAvatar 使用 LoRA 技术在 attention 和 FFN 模块中注入低秩更新,实现轻量微调。该设计保证了高效迁移及小冷启动成本

支持文本提示精确控制

不同于仅人脸模型,OmniAvatar 可通过像 “[emotion] media news presenter in a studio setting” 的文本提示控制背景、情绪(如 happy、sad)、动作路径和镜头移动,使生成的视频具备高度可定制属性


安装与快速上手

git clone https://github.com/Omni-Avatar/OmniAvatar cd OmniAvatar pip install torch==2.4.0 torchvision torchaudio pip install -r requirements.txt # 安装 flash_attn 加速 pip install flash_attn

下载预训练模型和权重:

huggingface-cli download Wan-AI/Wan2.1-T2V-14B ./pretrained_models/Wan2.1-T2V-14B huggingface-cli download OmniAvatar/OmniAvatar-14B ./pretrained_models/OmniAvatar-14B huggingface-cli download facebook/wav2vec2-base-960h ./pretrained_models/wav2vec2-base-960h

启动推理示例:

torchrun --standalone --nproc_per_node=1 scripts/inference.py \ --config configs/inference.yaml \ --input_file examples/infer_samples.txt

examples/infer_samples.txt 中定义 [prompt]@@[img]@@

格式,控制风格和同步度


实例展示与用户体验

表情与背景随意调控

OmniAvatar 支持情绪词(happy、sad、surprise)驱动角色表情变化,可控制背景类型(如 cybercafe、lemon tree)使视频场景风格丰富

人物物体互动

模型能够模拟与物体的互动,如打电话、喝咖啡等关节动作,使生成视频更具“人性化”

动态场景与歌唱表现

适合播客主持、唱歌视频等任务,多场景测试表明在 podcast、singing 演示中表现优异


与其他模型对比

功能OmniAvatar仅面部驱动模型文本-视频模型
全身动作生成✅ 自然肢体动作、精确 lip-sync❌ 仅面部或刚性肩膀动作❌ 缺乏动作同步
文本控制✅ 支持背景、情绪、视角等 prompt 控制❌ 不支持丰富 prompt 控制✅ 支持生成内容较行
微调策略✅ LoRA 高效可迁移❌ 全参数或无微调❌ 通常无法定制
音频嵌入策略✅ 像素级多层次嵌入,提升同步效果✅ 跨注意力嵌入❌ 音频嵌入能力弱
开源程度✅ 代码、权重、文档均开源 Apache-2.0❌ 多为闭源平台模型❌ 模型封闭、权限受限

OmniAvatar 在全身动作、精细控制、音频同步 上都有明显技术优势。


适用场景推荐

  • 播客与主播视频:快速生成 lip-sync 精准、动作流畅的数字化主持人;

  • 教学与演示工具:带语音解说和手势演示的合成人格化学术视频;

  • 娱乐与内容制作:适用于短视频、唱歌片段的创意展示;

  • 混合现实/元宇宙:可对接虚拟环境做动态角色参与;

  • 广告营销素材:通过文本控制营造卖点突出的 promotional avatar。


// 04 常见 问题

OmniAvatar 是什么?
OmniAvatar 是由浙江大学与阿里巴巴联合开发的开源音频驱动全身 avatar 视频生成模型,支持精确 lip‑sync、自然身体动作、文本控制和背景调节,适用于播客、教育、娱乐等多场景,高效、可定制。
OmniAvatar 适合哪些场景?
可优先参考它所属的 AI 图像 分类,以及 tech-cv、price-open-source、AI视频生成框架 等标签。
OmniAvatar 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
OmniAvatar 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 图像 全部