CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS498
▸ AI 大模型 / 对话 · SITES

Kling‑Foley SITES

Kling‑Foley 是快手可灵AI推出的首个多模态视频到音频生成模型,支持基于视频(可附文本提示)生成高保真、语义对齐、帧级同步的立体声音效与背景音乐,适用于创作者、游戏开发者与视频制作人,帮助自动补齐“所见即所听”。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年7月4日更新 2025年7月4日浏览 498

// 01 Kling‑Foley 是什么

什么是Kling‑Foley?

Kling‑Foley是由快手可灵AI团队开源的多模态视频到音频生成模型。它能自动从输入视频(支持附加文字提示)中生成与画面语义匹配时间同步的高保真立体声音频,并且支持任意长度输出,可用于音效或 BGM 生成

这一模型基于名为“Multimodal Diffusion Transformer”的新架构,融合了视频帧、文本提示与时间条件,以实现视频内容理解与音频生成的深度协同


核心技术原理

多模态流匹配架构

Kling‑Foley的生成核心是一种 multimodal-controlled flow-matching 模型,该结构支持将视频帧、可选文本命令和时间信号联合编码,通过MM-DiT模块生成VAE潜层音频特征,再通过 Mel-spectrogram 到 stereo 渲染,最终利用 vocoder 合成音频 waveform

视觉语义与同步模块协同

该模型由“视觉语义表示模块”和“音视频同步模块”共同作用,使音效能在帧级别与视频对齐,有效提升语义一致性时间同步精度

通用潜在音频编解码器

采用设计精良的 Mel-VAE潜层音频编解码器,支持语音、歌唱、背景音与音效等多种场景,确保了高音质泛化能力

Kling-Audio-Eval 多模态评测基准

为了衡量模型性能,团队构建了首个包含视频、文本、音频与音事件标签的工业级评测集 Kling-Audio-Eval,共 20,935 条样本,涵盖交通、人声、动物、机械等九大类场景,支持语义对齐、时间一致性和音质的多维评估


性能亮点

  • SOTA 性能:在分辨率匹配、语义一致性、时间对齐、音频质量等指标中远超主流模型

  • 高质量音效:在音效、音乐、语音和歌唱任务中,Mel-VAE 编解码器匹配或超越 MMAudio 等竞争者

  • 时长无限制:Kling‑Foley 能根据输入动态生成任意时长的音频,适应不同视频长度

  • 立体声渲染:支持空间音效定位,如狗叫声从左侧传来、引擎声由远至近等沉浸式效果


平台整合与使用情景

可灵 AI 平台支持

可灵AI在近期 2.1 系统更新中已实现与视频生成工具一体化:输入或生成视频后,平台自动为其生成语义关联音效,支持本地视频上传或平台视频导入、一键获取精准声音

免费试用推广中

Tech in Asia 与 AIbase 报道指出,此功能目前在可灵平台免费开放试用,并支持立体声生成


典型应用场景

场景说明与价值
短视频创作自动补齐视觉音频,多环境背景和音效同步,提升视频质感
动画/教育视频用于角色动作音、场景音、背景配乐及甚至语音同步,简化配音流程
游戏或虚拟场景预览在关卡设计或先导视频阶段添加真实音效,如脚步声、枪声等
广告与产品短片产品功能或演示视频自动加入操作音和环境音,提升沉浸度
电影与剧本制作快速生成场景预览音效,供团队参考、讨论或提案使用

此外,有创作者已在平台尝试制作ASMR 特效、环境音(如雨声、风声、载具声音)等,效果受到网友点赞


快速使用指南

  1. 获取入口:访问 Kling-Foley GitHub 或可灵平台页面。

  2. 准备素材:上传视频或在可灵界面生成视频,建议时长不超过 30 秒。

  3. 可选文本提示:可补充音效风格提示,例如“add rain and thunder sound”。

  4. 执行生成:点击“视频音效”按钮,稍等片刻后获取带立体声的音效视频或音轨。

  5. 后期处理:音频可导出为 WAV/MP3 格式,用于剪辑、混音或直接发布。


// 04 常见 问题

Kling‑Foley 是什么?
Kling‑Foley 是快手可灵AI推出的首个多模态视频到音频生成模型,支持基于视频(可附文本提示)生成高保真、语义对齐、帧级同步的立体声音效与背景音乐,适用于创作者、游戏开发者与视频制作人,帮助自动补齐“所见即所听”。
Kling‑Foley 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 AI动画视频、AI短视频制作 等标签。
Kling‑Foley 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Kling‑Foley 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部