
一、什么是 Step 3
Step 3 是由中国人工智能公司StepFun 提出的最新一代多模态 LLM 系列,支持文本、图像与视频内容的理解和生成。Step 3 是 StepFun 在 Step-2(三万亿参数 MoE)和 Step-1V(图像模型)之后推出的通用模型,具有多模态协同能力,并优化以适配中国 AI 芯片生态。Step 3 已获得超过 67 颗 GitHub Star,预计将于2025年 7 月 31 日正式开源。
二、核心特点与技术架构
2.1 多模态融合能力
Step 3 可同时处理文本、图片、视频等输入,与 Step-Audio、Step-Video 系列协同,支持统一理解能力,适合构建多模态 Agent 和复杂应用。
2.2 优化国内 AI 生态
专门针对国内 AI 芯片进行了优化,以提升推理效率,降低部署门槛,适合国内开发者和企业环境部署。
2.3 多 Agent 与推理能力
在 xBench-DeepSearch 和 BrowseComp 等多任务 benchmark 上表现出色,步步领先。配合 Step 系列 Agent 框架,Step 3 能执行多轮推理、多步任务规划能力强。
2.4 开源时间与社区生态
StepFun 官方宣布将在 2025 年 7 月 31 日将 Step 3 开源,届时将连同 Labs、推理代码与示例一起发布,鼓励社区测试与开发。
三、Step 3 的模型组成与生态关联
Step 3 不仅是独立基础模型,还与 StepFun 系列模型(如 Step-Video-T2V, Step-Audio, Step1X-Edit)协同运作:
Step-Video-T2V:30B 文本到视频模型,可生成长达 204 帧的视频,采用高压缩 Video-VAE 与 DPO 优化机制。
Step-Audio:130B 多模态音频模型,支持语音识别、语音合成(TTS)、聊天与音频工具调用等能力。
Step1X-Edit:高性能开源图像编辑模型,性能接近 GPT‑4o 与 Gemini‑2 Flash。
Step 3 将与上述模型协同,为用户构建统一多模态 agent 提供基础支撑。
四、目标用户与典型应用场景
AI 工具使用者与开发者
开发者可以基于 Step 3 构建多模态 Agent,例如图文问答机器人、视频摘要助手、图像分析或语音交互应用。
教育与培训系统
教师与教育机构可构建带图文、音频同步的交互式教学助手,支持课堂录播内容查询与生成。
媒体与内容创作者
内容创作者可结合 Step-Video、Step-Audio 与 Step 3 建立从剧本文本到视听内容的自动生成流程。
企业知识智能系统
结合企业内部图片、视频、文档等信息,可建立智能检索与生成系统,用于客服、智能报告、设备分析等场景。
五、部署与使用指南(面向 AI 工具使用者)
1.访问 StepFun 官方 GitHub Step3 仓库,查看 README 和 Tech Report PDF。
2.在开源发布日期(2025‑07‑31)后,下载模型权重和推理代码。
3.参考 StepFun 官方文档,使用 Python 环境部署模型,加载多模态输入接口。
4.初始化 benchmark 测试(如 xBench‑DeepSearch 或 BrowseComp)并评估模型性能。
5.与 Step-Video/Step-Audio API 协同运行,实现图像、视频或语音生成任务集成。
六、常见问题(FAQ)
Q1:Step 3 是否开源?
是的,Step 3 已宣布将于 2025 年 7 月 31 日全部开源,连同技术报告与模型部署指南一起公开。
Q2:支持哪些输入模态?
支持文本、图像、视频,未来可与音频(通过 Step-Audio)联合使用。
Q3:模型大小与资源需求怎样?
目前官方未公布精确参数,但基于 Step 系列的特点,需要适配大型 GPU 集群或中国国产 AI 加速硬件。
Q4:适合哪些场景部署?
多模态 Agent、内容生成平台、智能助理、媒体传播、教育应用与智能客服等应用场景皆适配。
Q5:是否可集成已有 Step 系列模型?
是的,Step 3 的设计理念是与 Step‑Video‑T2V、Step‑Audio、Step1X‑Edit 等项目无缝协作。
Q6:社区生态如何?
StepFun 在 GitHub 上已有开放项目,社区活跃,可通过 Discord 与开发者互动。
Q7:如何测试模型性能?
可使用 xBench-DeepSearch、BrowseComp、StepEval-Audio-Toolcall 等 benchmark 进行能力测评。
Q8:未来发展方向是什么?
计划支持更多模态(如表格、结构化输入)、模板化 Agent 构建工具、自定义工具调用接口,以及低资源设备部署优化。
七、优势与局限分析
| 维度 | 优势 | 局限与建议 |
|---|---|---|
| 多模态理解能力 | ✅ 统一处理文本、图像、视频,兼容 Step 系列模型 | ⚠ 模型资源需求高,对硬件依赖强,需优化轻量部署方案 |
| 技术领先度 | ✅ 展示了最新 benchmark 成绩,如 xBench-DeepSearch 与 BrowseComp | ⚠ 当前仍是 GitHub Star 项目,社区生态与运营尚在发展中 |
| 开源时间确定 | ✅ 明确于 7 月 31 日开源,未来可自由部署与调整 | ⚠ 公开文档和示例尚未完善,建议 StepFun 提供更多落地案例与 tutorial |
| 社区协同潜力 | ✅ 可结合 Step-Audio 与 Step-Video 构建完整 multimodal 流程 | ⚠ 目前 Step3 README 内容过少,建议增加示例代码与 demo |
八、媒体与社区视角
社交媒体(如 X 上评论)盛赞 Step 3 是 StepFun 推出的“突破性多模态 LLM”,声称其在国内 AI 芯片优化方面领先。
虽尚未有 TechCrunch 独立报道,但 The Wire China 报导 StepFun 为中国领先 AI 独角兽之一,其模型具备多模态生成能力。
GitHub 社区已提前下载 Step-Video-T2V 与 Step-Audio,显示强烈开发者兴趣及对 Step3 的期待。
九、专家建议与未来方向
增强文档与示例:增加 README、demo notebook、推理脚本与应用模板,降低上手难度;
发布轻量版本:如 7B/13B 模型版本,适配国内低资源场景部署;
开发 Agent 接入工具:提供微任务流水线模板和 prompt 管理系统;
支持本地部署与边缘推理:配合国产芯片生态,实现推理兼容性;
构建生态市场:鼓励用户发布 Agent 模板、任务流程与 multimodal demo。
十、总结
Step 3 是 StepFun 提出的全新一代多模态大语言模型,支持文本、图像与视频输入,具备生成与理解能力,并与 Step-Video、Step-Audio、Step1X‑Edit 等模块协同,为 AI工具使用者与开发者打造多模态 Agent 提供基础设施。预计于 2025 年 7 月 31 日正式开源后,Step 3 将为多模态应用开发带来极大便利。若您需要 prompt 示例、应用规划建议或集成建议,我很乐意继续为您提供帮助。
数据统计
Step 3访问数据评估
本站AI工具导航提供的Step 3页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月26日 下午3:22收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替




