HunyuanVideo-Avatar
T-03工具 长尾 OPEN-SOURCE

HunyuanVideo-Avatar

腾讯混元团队联合腾讯音乐天琴实验室(MuseV)于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。

01

HunyuanVideo-Avatar 是什么

HunyuanVideo-Avatar是腾讯混元团队联合腾讯音乐天琴实验室(MuseV)于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。该模型基于腾讯的 HunyuanVideo 视频大模型,支持从一张人物图像和一段音频自动生成自然的说话或唱歌视频,广泛应用于短视频创作、电商广告、虚拟主播等领域


🧠 HunyuanVideo-Avatar 是什么?

HunyuanVideo-Avatar 是一款多模态视频生成模型,能够根据输入的静态人物图像和音频,生成包含自然表情、唇形同步及全身动作的动态视频。该模型支持多种风格(如赛博朋克、2D 动漫、中国水墨画)和多角色场景,适用于多种应用场景


🚀 如何使用 HunyuanVideo-Avatar?

  1. 访问平台前往 腾讯混元官网 的“模型广场-混元生视频-数字人-语音驱动-HunyuanVideo-Avatar”页面。

  2. 上传素材

    • 人物图像上传一张清晰的正面人物照片。

    • 音频文件上传一段不超过 14 秒的音频文件(如语音或歌曲)。

  3. 生成视频系统将自动处理输入,生成对应的动态视频。

  4. 下载结果预览并下载生成的视频,可用于各类创作需求。


🔧 主要功能

  • 语音驱动视频生成根据音频内容,生成与之匹配的口型、表情和动作,实现自然的说话或唱歌效果。

  • 多风格支持支持多种视觉风格,包括赛博朋克、2D 动漫、中国水墨画等,满足不同创作需求

  • 多角色场景支持双人及多人互动场景,确保各角色的唇形、表情和动作与音频完美同步

  • 高一致性音画同步通过面部感知音频适配器,实现唇形、眨眼、微表情与音频的毫秒级同步


⚙️ 技术原理

  • 多模态扩散 Transformer 架构(MM-DiT)同时处理图像、音频和文本数据,实现高度动态的视频生成

  • 角色图像注入模块将上传的人物照片分解为面部、肢体、服饰等特征层,确保生成视频中角色的动态运动和一致性

  • 音频情感模块(AEM)识别音频中的情感线索,并将其转移到生成视频中,实现情感风格的精细控制

  • 面部感知音频适配器(FAA)通过潜在级别的面部掩码隔离音频驱动的角色,实现多角色场景下的独立音频注入

  • 时空压缩的潜在空间基于 Causal 3D VAE 技术,将视频数据压缩成潜在表示,再通过解码器重构回原始数据,加速训练和推理过程,提高生成视频的质量


🎯 应用场景

  • 短视频创作快速生成人物说话或唱歌的视频,提升内容创作效率。

  • 电商与广告制作产品介绍视频或多人互动广告,降低制作成本

  • 虚拟主播与数字人为虚拟主播提供自然的表情和动作,增强观众体验。

  • 教育与培训生成教学视频中的讲解人物,提高教学内容的生动性。


📂 项目地址


❓ 常见问题

Q1:HunyuanVideo-Avatar 是否免费?

A1:是的,HunyuanVideo-Avatar 已开源,用户可免费使用其功能。

Q2:支持哪些音频格式?

A2:目前支持常见的音频格式,如 MP3、WAV 等,音频长度不超过 14 秒。

Q3:生成的视频是否可以商用?

A3:请参考项目的开源协议和使用条款,确保在合法范围内使用生成内容。

Q4:是否支持批量处理?

A4:目前主要支持单个图像和音频的处理,批量处理功能可能在未来版本中推出。


HunyuanVideo-Avatar 通过强大的多模态 AI 技术,为用户提供便捷、高效的数字人视频生成解决方案,适用于多种应用场景,是内容创作者和开发者的理想工具。

AI大学堂