Kling‑Foley 如何收费？

Kling‑Foley 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Kling‑Foley SITES

Kling‑Foley 是快手可灵AI推出的首个多模态视频到音频生成模型，支持基于视频（可附文本提示）生成高保真、语义对齐、帧级同步的立体声音效与背景音乐，适用于创作者、游戏开发者与视频制作人，帮助自动补齐“所见即所听”。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年7月4日更新 2025年7月4日浏览 499

// 01 Kling‑Foley 是什么

什么是Kling‑Foley？

Kling‑Foley是由快手可灵AI团队开源的多模态视频到音频生成模型。它能自动从输入视频（支持附加文字提示）中生成与画面语义匹配、时间同步的高保真立体声音频，并且支持任意长度输出，可用于音效或 BGM 生成。

这一模型基于名为“Multimodal Diffusion Transformer”的新架构，融合了视频帧、文本提示与时间条件，以实现视频内容理解与音频生成的深度协同。

核心技术原理

多模态流匹配架构

Kling‑Foley的生成核心是一种 multimodal-controlled flow-matching 模型，该结构支持将视频帧、可选文本命令和时间信号联合编码，通过MM-DiT模块生成VAE潜层音频特征，再通过 Mel-spectrogram 到 stereo 渲染，最终利用 vocoder 合成音频 waveform。

视觉语义与同步模块协同

该模型由“视觉语义表示模块”和“音视频同步模块”共同作用，使音效能在帧级别与视频对齐，有效提升语义一致性与时间同步精度。

通用潜在音频编解码器

采用设计精良的 Mel-VAE潜层音频编解码器，支持语音、歌唱、背景音与音效等多种场景，确保了高音质与泛化能力。

Kling-Audio-Eval 多模态评测基准

为了衡量模型性能，团队构建了首个包含视频、文本、音频与音事件标签的工业级评测集 Kling-Audio-Eval，共 20,935 条样本，涵盖交通、人声、动物、机械等九大类场景，支持语义对齐、时间一致性和音质的多维评估。

性能亮点

SOTA 性能：在分辨率匹配、语义一致性、时间对齐、音频质量等指标中远超主流模型。
高质量音效：在音效、音乐、语音和歌唱任务中，Mel-VAE 编解码器匹配或超越 MMAudio 等竞争者。
时长无限制：Kling‑Foley 能根据输入动态生成任意时长的音频，适应不同视频长度。
立体声渲染：支持空间音效定位，如狗叫声从左侧传来、引擎声由远至近等沉浸式效果。

平台整合与使用情景

可灵 AI 平台支持

可灵AI在近期 2.1 系统更新中已实现与视频生成工具一体化：输入或生成视频后，平台自动为其生成语义关联音效，支持本地视频上传或平台视频导入、一键获取精准声音。

免费试用推广中

Tech in Asia 与 AIbase 报道指出，此功能目前在可灵平台免费开放试用，并支持立体声生成。

典型应用场景

场景	说明与价值
短视频创作	自动补齐视觉音频，多环境背景和音效同步，提升视频质感
动画/教育视频	用于角色动作音、场景音、背景配乐及甚至语音同步，简化配音流程
游戏或虚拟场景预览	在关卡设计或先导视频阶段添加真实音效，如脚步声、枪声等
广告与产品短片	产品功能或演示视频自动加入操作音和环境音，提升沉浸度
电影与剧本制作	快速生成场景预览音效，供团队参考、讨论或提案使用