Qwen3-Omni-Flash #065
Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,...
可灵O1 #066
可灵O1 是由 可灵AI 发布的全球首款统一多模态视频生成大模型,支持图片、视频与文字混合输入,实现从文生图/文生视频/图生视频到视频编辑的一站式创作流程,适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内...
Vidi2 #067
Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型,支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成,是内容创作、短视频制作、影视剪...
Depth Anything 3 #068
Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型,可从任意数量与任意视角的图像/视频输入中恢复空间一致的 3D 几何结构,包括深度图、相机位姿、三...
DeepSeek-Math-V2 #069
DeepSeek-Math-V2 是一个开源数学推理模型,通过“生成 + 自验证 (generate-and-verify)”机制,实现了 IMO 金牌水平的定理证明与数学竞赛能力,非常适合研究者、学生、开发者与数学爱...
Grok4.1 #070
Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM),主打更快的响应、更低的“幻觉率”、更高的情感理解与代码/多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4....
Gemini 3 #071
Gemini 3 是由 Google DeepMind 推出的最新 AI 模型,融合强大推理、多模态理解与编码/工具调用能力,为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手,适合从写作、规划、代码生成到跨...
Z-Image #072
Z-Image 是阿里通义 (Tongyi MAI) 发布的高效 6 B 图像生成与编辑基础模型,支持高逼真度渲染、中英双语文本、低资源运行与快速推理,为创作者、设计师和开发者提供了兼顾质量与效率的开放图像生成方案。
FLUX.2 #073
FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型,支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性,适合设计师、营销、产品可视化和...

睿标AI—标书智写专家 #074
告别千篇一律!

PYPROXY #075
PYPROXY擁有超過9000萬個真實住宅ip,覆蓋190多個國家,提供最強大、最靈活的代理網絡。快速可靠的服務,實惠的價格和專業的支持團隊-您的首選解決方案,優質代理基礎設施,爲您的業務提供最佳代理。
Higgs Audio V2 #076
Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。
Step 3 #077
Step 3 是 StepFun 发布的一款多模态大语言模型,具备文本、图像与视频理解生成能力,将于 2025 年底开源,适合 AI 工具使用者构建多模态 Agent 与应用。
Agentar‑Fin‑R1 #078
Agentar‑Fin‑R1 是一系列基于 Qwen3 构建的金融专业大语言模型(8B 与 32B),专为金融推理、安全合规与高效训练优化,适合 AI 工具使用者部署金融智能解决方案。
Qwen‑MT #079
Qwen‑MT 是阿里巴巴云开发的旗舰翻译模型,支持 92 种语言、多语种术语定制和领域适配,具备低延迟与高性价比,适合 AI 工具使用者进行机器翻译应用。
KAT‑V1 #080
KAT‑V1 是 KwaiPilot 团队开源的 40B 大语言模型,具备“自动思考”机制,可动态切换链式思维与直接回答模式,显著降低推理浪费,适合 AI 工具使用者提升效率与响应速度。
