// 01 可灵3.0模型 是什么
定义与概述
工具名称
可灵3.0模型(Generative Model 3.0 for AIGC)
开发方
快手技术团队自研(归属于可灵AI平台体系)
工具属性
统一多模态 AI 创作模型,覆盖图像与视频生成及编辑能力
项目地址
核心能力(Structured)
多模态生成能力
视频生成
生成长度可调短视频,单次支持 3–15 秒(文生视频/图生视频)
原生音画输出:同步生成口型、对白、音效及背景音(支持多语种)
支持文本、图像、视频参考输入组合生成流程
图像生成
生成静态图像输出,支持 2K/4K 分辨率级别
多图参考一致性控制与批量组图能力
模型内部构建
统一架构:融合视频、图像生成与编辑能力的“全链路”模型框架
智能分镜系统:自动规划多镜头叙事结构(Text-to-Storyboarding)
音画同步机制:文本对白与动作实现原生音频与视觉同步输出
输入与输出规范
支持输入类型
文本说明(自然语言描述)
静态图像参考(图片上传)
视频片段参考(短视频片段)
输出内容类型
原生音画同步短视频(包括对白与音效)
高清图像(2K/4K)
连续画面生成序列(批量图像或镜头序列)
功能模块详解
视频 3.0 模块
文本到视频生成能力,支持自动多镜头叙事与智能分镜
视频主体参考增强,一致性更强
时长可设定,可覆盖短片叙事需求
视频 3.0 Omni 模块
高级参考与音色克隆能力(提取角色特征与声音特征)
自定义分镜控制能力扩展
图片 3.0 与 3.0 Omni
多图一致性:参考多张图片生成统一风格输出
光影与细节增强机制
批量组图能力支持视觉连贯故事表达
常见应用场景(Structured)
媒体与影视制作
预制短视频广告内容与叙事片段生成
多角度场景与镜头组合开发
社交媒体与内容运营
快速构建个人或品牌内容短视频
风格一致的连贯视觉系列生成
电商与产品营销
产品展示图像及视频内容生成(跨语种版本)
语言本地化与口型同步输出加速多市场覆盖
教育与培训内容
多语言教学视频快速生成(文本输入驱动)
情景模拟与说明性视觉素材输出
游戏与交互设计
角色模型静态与动态输出素材生成
原画到短片动态场景快速迭代
使用流程(Structured)
1. 访问平台
打开浏览器访问 官方页面:https://app.klingai.com/cn
2. 选择生成模式
依据需求选择 图像生成 或 视频生成 模块
3. 输入提示
提供自然语言文本及可选参考图片/视频
4. 调整参数
设定输出时长、分辨率及分镜策略等参数(如可选)
5. 生成与导出
等待模型生成内容,下载输出结果文件
使用限制与注意事项
生成内容审核
生成内容需遵守相关法律法规及平台使用协议(一般要求)
输出质量
视频生成效果与输入描述清晰程度、参考图质量密切相关(一般认为)
语言支持
多语种音画同步能力已覆盖若干主流语言,可能因版本更新而变化(一般认为)
// 04 实战 Prompt
- 短视频脚本你是短视频编导。请围绕我的产品/主题,输出一条适合抖音/视频号/小红书的短视频脚本。要求包含:前三秒钩子、镜头节奏、口播文案、结尾引导和适合的封面标题。
- 分镜与素材清单请把以下短视频脚本拆成镜头脚本。每个镜头都要写清:时长、画面内容、字幕关键词、需要的素材类型,以及是否适合用 AI 生成。
- 发布优化请根据这条短视频内容,输出 5 个发布标题、3 个封面文案和一版评论区引导话术。要求更适合中文平台点击和互动。
