Seedance 1.5 Pro字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。01320内容创作大模型# AI情感短片视频生成# AI视频生成# 音视频联合生成模型
万相2.6阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。01580大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
GWM-1GWM-1 是由 Runway 发布的首个通用世界模型(General World Model),基于 Gen-4.5 架构,通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支,适用于交互式世界构建、机器人训练与数字人生成等领域。01230大模型最近收录AI# 世界模型
GPT-5.2GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日发布的最新大模型版本,专为专业知识工作、复杂多步骤任务以及更高效的生成式智能体验打造,在生成电子表格、演示文稿、代码、长文本理解和工具调用等方面显著领先前代,适合企业级应用与生产力提升。01360大模型最近收录AI# chatgpt5.2
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。01680内容创作大模型# AI语音助手# 多语言语音输出
可灵O1可灵O1 是由 可灵AI 发布的全球首款统一多模态视频生成大模型,支持图片、视频与文字混合输入,实现从文生图/文生视频/图生视频到视频编辑的一站式创作流程,适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。01540大模型最近收录AI# AI图像生成# AI视频创作工具# AI视频创作平台
Vidi2Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型,支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成,是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。01090大模型开源工具与社区# AI长视频处理
Depth Anything 3Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型,可从任意数量与任意视角的图像/视频输入中恢复空间一致的 3D 几何结构,包括深度图、相机位姿、三维点云与新视图合成,非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。01760内容创作大模型# AI 3D艺术
DeepSeek-Math-V2DeepSeek-Math-V2 是一个开源数学推理模型,通过“生成 + 自验证 (generate-and-verify)”机制,实现了 IMO 金牌水平的定理证明与数学竞赛能力,非常适合研究者、学生、开发者与数学爱好者用于复杂数学问题求解、证明辅助与教育 /学习。01310大模型开源工具与社区# AI数学模型
Grok4.1Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM),主打更快的响应、更低的“幻觉率”、更高的情感理解与代码/多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。03110大模型最近收录AI
Gemini 3Gemini 3 是由 Google DeepMind 推出的最新 AI 模型,融合强大推理、多模态理解与编码/工具调用能力,为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手,适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。02440内容创作创意设计# AI开发# AI程序员
Z-ImageZ-Image 是阿里通义 (Tongyi MAI) 发布的高效 6 B 图像生成与编辑基础模型,支持高逼真度渲染、中英双语文本、低资源运行与快速推理,为创作者、设计师和开发者提供了兼顾质量与效率的开放图像生成方案。01490大模型开源工具与社区# AI图像生成模型# AI图像编辑模型# 文生图
FLUX.2FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型,支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性,适合设计师、营销、产品可视化和创意团队进行专业级图像创作。01300内容创作大模型# AI图像模型# AI图像编辑# 文生图像
Higgs Audio V2Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。04030大模型开源工具与社区# AI情感语音合成# AI语音克隆# 音频生成与理解基础模型
Step 3Step 3 是 StepFun 发布的一款多模态大语言模型,具备文本、图像与视频理解生成能力,将于 2025 年底开源,适合 AI 工具使用者构建多模态 Agent 与应用。07590大模型最近收录AI# 多模态Agent# 通用模型
Agentar‑Fin‑R1Agentar‑Fin‑R1 是一系列基于 Qwen3 构建的金融专业大语言模型(8B 与 32B),专为金融推理、安全合规与高效训练优化,适合 AI 工具使用者部署金融智能解决方案。06840大模型最近收录AI# 金融大模型
Qwen‑MTQwen‑MT 是阿里巴巴云开发的旗舰翻译模型,支持 92 种语言、多语种术语定制和领域适配,具备低延迟与高性价比,适合 AI 工具使用者进行机器翻译应用。04880大模型最近收录AI# 多语言机器翻译模型
KAT‑V1KAT‑V1 是 KwaiPilot 团队开源的 40B 大语言模型,具备“自动思考”机制,可动态切换链式思维与直接回答模式,显著降低推理浪费,适合 AI 工具使用者提升效率与响应速度。05390大模型开源工具与社区# AI编程工具# AI问答系统
Seed GR‑3Seed GR‑3 是字节跳动 Seed 团队发布的大规模视觉‑语言‑行动(VLA)模型,支持机器人长时任务、复杂物体操作与指令理解,适用于 AI 工具使用者与机器人应用场景。04870大模型最近收录AI# 多模态机器人模型
Mureka V7Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型,基于 MusiCoT Chain‑of‑Musical‑Thought 技术,实现结构化、真实感极强的旋律和人声效果,适合 AI 工具使用者快速制作高质量原创音乐。03900大模型最近收录AI# AI音乐创作工具# AI音乐模型
Seed‑XSeed‑X 是 ByteDance Seed 团队开源的 7B 多语言翻译 LLM,支持 28 种语言双向翻译,性能媲美 Gemini‑2.5、GPT‑4、DeepSeek‑R1,适合希望构建本地翻译系统的 AI 工具使用者。05620大模型开源工具与社区# 多语言翻译模型
OpenReasoning‑NemotronOpenReasoning‑Nemotron 是一个开源推理增强 LLM 系列,采用 DeepSeek‑R1 蒸馏技术,在数学、科学与代码问答任务中实现 SOTA 性能,支持 GenSelect 多路径生成,适合 AI 工具使用者加强推理能力。03280大模型最近收录AI# 小体量推理模型
MirageLSDMirageLSD 是 Decart 推出的首个实时流式扩散 AI 视频模型,支持无延迟、实时且可无限生成的视频流变形,适用于直播、视频通话和游戏等场景。04090大模型最近收录AI# AI内容创作# AI游戏画面风格强化# 流式扩散视频模型
Goedel‑Prover‑V2Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列,通过专家迭代、自我修正与模型平均三项创新,实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA,适合 AI 工具使用者用于数学推理和 Agent 集成。02810大模型开源工具与社区# 定理证明模型
VoxtralVoxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。03890大模型开源工具与社区# AI摘要生成# AI语音转录# AI语音问答
EXAONE 4.0EXAONE 4.0 是 LG AI Research 发布的混合智能大模型,集通用理解与多步推理于一体,提供 32B 高性能与 1.2B 本地部署版本,支持工具调用与多语言,是 AI 工具使用者进行开发集成的核心资源。03230大模型开源工具与社区# 多语言支持# 混合模型
RoboBrain2.0RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”,融合视觉、语言与交互推理,支持 7B/32B 模型,对各种实体任务进行空间、时间规划与闭环反馈,适合 AI 工具使用者快速集成机器人认知能力。03380大模型开源工具与社区# 机器人视觉-语言大模型
Kimi K2Kimi K2 是 Moonshot AI 发布的开源 trillion‐parameter 混合专家大语言模型,支持代码生成、长上下文处理、多 Agent 工具调用,被评为 SOTA 开源模型,适合 AI 工具使用者部署与集成。04470大模型开源工具与社区# AI Agent# AI代码生成# AI数学推理
GLM‑ExperimentalGLM‑Experimental 是 Zhipu AI 在 chat.z.ai 平台推出的新一代 GLM 模型,具备结构化推理和 PPT 生成能力,适用于内容创作、代码编写与智能协作工作流。04340大模型教育与学习# AI PPT制作# AI职场报告编写# GLM 模型
Grok 4Grok 4 是 xAI 推出的最新大语言模型,具备实时网络搜索、原生工具调用、多 Agent 推理与多模态能力,适合开发者与 AI 工具使用者用于复杂推理与多场景部署。02580API与SDK大模型# AI实时搜索# 多Agent架构# 强化学习
Skywork‑R1V 3.0Skywork‑R1V 3.0 是一款开源的多模态视觉‑语言推理模型,采用视觉 CoT、强化学习优化,在 MMMU、MathVista 等多项测试中实现开源最佳性能,适合 AI 工具使用者部署与实验。04560大模型开源工具与社区# AI Agent# 多模态模型# 视觉模型
HumanOmniV2全面解析 HumanOmniV2——多模态推理大模型,聚焦上下文理解与人类意图识别,兼具视觉、语音与逻辑评估能力,助力 AI 工具使用者构建更智能的人机交互系统。04050大模型最近收录AI# 多模态推理模型
MetaStone‑S1深入剖析开源反思型生成模型 MetaStone‑S1:其架构、Test‑Time Scaling、性能基准、实际部署与未来发展,面向 AI 工具使用者的全面指南。04280大模型开源工具与社区# AI代码生成# AI推理研究# 反思型生成模型
Hunyuan3D‑PolyGenHunyuan3D‑PolyGen 是腾讯混元3D系列的最新旗舰级模型,以生产级“Art‑Grade”网格拓扑为目标,支持三角/四边形网格、高压缩编码与自动重拓扑,能减少 70% 制作时间、提升 35% 拓扑整洁度,是游戏开发者与 3D 艺术师的创作助力。03790API与SDK大模型# AI 3D艺术设计# AI游戏开发
NativeMindNativeMind 是一款完全本地运行、开源隐私保护的浏览器 AI 插件,通过集成 Ollama 在浏览器端使用强大开源大模型,支持多模型切换、网页摘要、跨标签聊天、隐私搜索与文本润色,适合注重数据安全的 AI 工具使用者。03590大模型最近收录AI# AI写作辅助# AI文本润色# AI浏览器插件
MOSS‑TTSDMOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。03220大模型最近收录AI# AI客服# AI播客# AI语音生成框架
DeepSeek R1T2DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM,兼顾高推理能力、低延迟与开放开源,适合 AI 工具使用者在本地部署高效问答与生成任务。02940大模型开源工具与社区# AI问答机器人# 混合式大语言模型
Kyutai TTSKyutai TTS 是 Kyutai 团队首个实时流式文本转语音模型,支持英语和法语,具备声线克隆、超低延迟(约220ms)、长音频稳定输出与字级时间戳,可部署本地化、适配 LLM,对 AI 工具使用者极具吸引力。03650大模型开源工具与社区# AI声线克隆# 实时流式文本转语音模型# 文本转语音
Step‑Audio‑AQAAStep‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型,支持音频问答任务,从原始音频直接生成自然语音回答,具备情感、语速、方言控制,高保真响应,非常适合 AI 工具使用者构建交互式音频智能系统。03420大模型最近收录AI# AI音色控制# 双重编码器# 端到端处理
GLM‑4.1V‑ThinkingGLM‑4.1V‑Thinking 是清华大学与知谱 AI 联合开发的首个开放源多模态推理模型,融合 RLCS(课程采样强化学习)和 CoT(链式思维)训练,实现 10B 级参数在 STEM、长文理解、视频分析等28个任务上对标 72B 模型甚至 GPT‑4o,适合 AI 工具使用者构建高性能视觉推理系统。03370大模型最近收录AI# 源码视觉语言模型# 视觉编码器# 语言解码器
XVerseXVerse 是字节跳动发布的开源多主体图像生成模型,基于 DiT 调制实现对多个人物身份和语义属性(姿态、风格、光照)的独立控制,适合 AI 工具使用者生成复杂定制化场景。02420大模型最近收录AI# 多主体图像生成模型
Qwen‑TTSQwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型,支持标准普通话、三种中文方言(北京话、上海话、四川话)及七种中英双语音色,通过流式输出实现快速、高质量语音生成。04620大模型最近收录AI# AI客服# AI语音助手# 文本转语音模型
Ovis‑U1Ovis‑U1 是阿里巴巴 AIDC‑AI 推出的 30 亿参数统一多模态模型,集图像理解、文本生成、图像生成与编辑能力于一体,适合 AI 工具使用者快速构建多功能视觉交互应用。03110大模型计算机视觉# 多模态模型
AnimaXAnimaX 是阿里巴巴 DAMO Academy 推出的最新文本驱动 3D 动画框架,利用视频扩散与骨架控制让静态模型动起来,适合 AI 工具使用者构建高质量 3D 动画。03790大模型开源工具与社区# 3D模型生成动画# AI 3D艺术制作# AI虚拟人物交互
WorldVLAWorldVLA 是阿里巴巴 DAMO Academy 推出的多模态机器人智能框架,结合视觉、语言与动作,支持输入图像+文本生成动作,同时预测动作后的未来图像状态,适合 AI 工具使用者进行机器人控制与仿真。03870大模型最近收录AI# 动作生成# 多模态编码器# 未来场景预测
Qwen VLo一文掌握 Qwen VLo——阿里巴巴发布的多模态生成与理解模型,从核心能力、使用路径到实战案例和常见问题,详解其如何帮助 AI 工具使用者提升图像生成与编辑效率。03590大模型最近收录AI# 多模态大语言模型# 文生图
4D‑LRM4D‑LRM 是一款由 Ziqiao Ma 等人提出的 Transformer 驱动大规模时空重建模型,基于 4D 高斯混合表示,实现从稀疏视角与时间点输入,到任意视角与任意时间点的连续动态重建。本文详解其架构、性能、使用指南与常见问题,帮助 AI 工具用户掌握 4D‑LRM。03710大模型最近收录AI# 4D时空重建模型# AI 4D场景生成# AI影视制作