OpenReasoning‑NemotronOpenReasoning‑Nemotron 是一个开源推理增强 LLM 系列,采用 DeepSeek‑R1 蒸馏技术,在数学、科学与代码问答任务中实现 SOTA 性能,支持 GenSelect 多路径生成,适合 AI 工具使用者加强推理能力。03280大模型最近收录AI# 小体量推理模型
MindOmniMindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。03270大模型开源工具与社区# 多模态大语言模型
EXAONE 4.0EXAONE 4.0 是 LG AI Research 发布的混合智能大模型,集通用理解与多步推理于一体,提供 32B 高性能与 1.2B 本地部署版本,支持工具调用与多语言,是 AI 工具使用者进行开发集成的核心资源。03230大模型开源工具与社区# 多语言支持# 混合模型
MOSS‑TTSDMOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。03220大模型最近收录AI# AI客服# AI播客# AI语音生成框架
OneRecOneRec 是一款端到端生成式推荐模型,通过统一检索与排序流程、会话级生成和迭代偏好对齐,显著提升视频推荐质量并已在快手(Kuaishou)平台上线,助力 AI 工具使用者深入理解前沿推荐系统技术。03140大模型最近收录AI# 端到端生成模型
PlayDiffusionPlay AI 公司推出的开源音频编辑模型,基于先进的扩散模型(diffusion model)构建,专注于提供高效的音频精细编辑与修复功能。03140大模型开源工具与社区# AI配音# AI音频编辑模型# 播客制作
Grok4.1Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM),主打更快的响应、更低的“幻觉率”、更高的情感理解与代码/多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。03110大模型最近收录AI
Ovis‑U1Ovis‑U1 是阿里巴巴 AIDC‑AI 推出的 30 亿参数统一多模态模型,集图像理解、文本生成、图像生成与编辑能力于一体,适合 AI 工具使用者快速构建多功能视觉交互应用。03110大模型计算机视觉# 多模态模型
MuMu 是微软推出的 330M 参数小型语言模型,专为 Copilot+ PC 上的 NPU 本地运行优化,驱动 Windows 设置中的 AI Agent,支持自然语言控制系统设置。超快速响应(<500 ms)、绝对隐私、无需云端,是面向 AI 工具用户的轻量化 AI 交互解决方案。02960大模型最近收录AI# 小型语言模型
dots.llm1小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。02950大模型最近收录AI# AI代码生成# AI问答助手# 大型稀疏专家(MoE)语言模型
DeepSeek R1T2DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM,兼顾高推理能力、低延迟与开放开源,适合 AI 工具使用者在本地部署高效问答与生成任务。02940大模型开源工具与社区# AI问答机器人# 混合式大语言模型
万兴天幕AI万兴天幕(Wondershare Tomoviee)是万兴科技最新一代音视频多媒体大模型 2.0,由万兴与华为云联合打造,具备视频、图像、音频生成能力,通过天天幕创作广场和 API 引擎,为 AI 工具使用者和开发者提供一站式创作方案。02940大模型最近收录AI# AI扩图# AI艺术生成工具# AI视频翻译
Eleven v3由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音(TTS)模型的 Alpha 版本。02940大模型最近收录AI# AI多角色对话# AI广告配音# AI情感表达
krea-1一款强大的 AI图像生成模型,以卓越的图像清晰度、超快实时渲染和风格可训练性为特色。本文深入探讨 Krea 1 的功能、使用方法、技术优势和典型应用场景,并附详尽常见问题解答,助力 AI 工具爱好者快速上手与使用。02900大模型最近收录AI# AI图像生成模型# AI电商视觉创作# AI艺术生成工具
Seaweed APT2Seaweed APT2 是 ByteDance 最新推出的实时交互式视频生成模型,采用 自回归对抗后训练(AAPT) 技术,实现单 GPU 24 fps、长视频流式生成,支持虚拟人物与世界漫游互动。02850大模型最近收录AI# AI世界漫游模拟# AI内容创作# AI虚拟人物动画
NFD一种高效的 视频生成模型,具备单步或少步推理能力,通过一致性蒸馏和 speculative 抽样策略,实现近 30 FPS 的实时视频生成,为交互式视频与流媒体应用带来新机遇。02850大模型最近收录AI# AI动画生成# AI实时内容直播# AI视频增强
豆包大模型1.6字节跳动火山引擎推出的首款 多模态深度思考大模型,支持256K超长上下文、自适应思考、图形界面操作、低成本区间定价。本文详解功能亮点、使用场景、技术原理、常见问题与优化建议,帮助 AI 工具使用者全面掌握豆包1.6 的潜力与落地策略。02840API与SDK大模型# 多模态深度思考大模型
Goedel‑Prover‑V2Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列,通过专家迭代、自我修正与模型平均三项创新,实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA,适合 AI 工具使用者用于数学推理和 Agent 集成。02810大模型开源工具与社区# 定理证明模型
Ring-liteRing-lite 是 InclusionAI 开源的轻量级 MoE 大语言模型(16.8B 参数、2.75B 激活参数),通过 C3PO 强化学习优化跨领域推理性能,高效对标甚至超过主流小体量推理模型。02730免费AI工具大模型# 大语言模型
Qwen3 Reranker阿里云通义千问团队于 2025 年 6 月发布的开源文本重排序(Reranking)模型,作为 Qwen3 Embedding 系列的一部分。02590大模型开源工具与社区# AI信息检索# 多语言支持# 模型
Grok 4Grok 4 是 xAI 推出的最新大语言模型,具备实时网络搜索、原生工具调用、多 Agent 推理与多模态能力,适合开发者与 AI 工具使用者用于复杂推理与多场景部署。02580API与SDK大模型# AI实时搜索# 多Agent架构# 强化学习
OmniAudio阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。02560大模型娱乐媒体# AI增强现实# AI虚拟现实# AI音频内容创作
Hailuo 02Hailuo 02 是 MiniMax 推出的最新 AI 视频生成模型,支持文本和图像转视频,具备 768p、10 秒时长选项,具备物理仿真、摄像机控制、高成本效能比,超越 Google Veo 3,适合创作者与开发者使用。02520大模型最近收录AI# AI短视频生成# 图像转视频# 文本转视频
Gemini 3Gemini 3 是由 Google DeepMind 推出的最新 AI 模型,融合强大推理、多模态理解与编码/工具调用能力,为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手,适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。02440内容创作创意设计# AI开发# AI程序员
XVerseXVerse 是字节跳动发布的开源多主体图像生成模型,基于 DiT 调制实现对多个人物身份和语义属性(姿态、风格、光照)的独立控制,适合 AI 工具使用者生成复杂定制化场景。02420大模型最近收录AI# 多主体图像生成模型
子曰3(Confucius3‑Math)子曰3(Confucius3‑Math)是网易有道开源的 14B 数学大模型,专注 K‑12 教育,具备高考题 98.5 分实力,可在 RTX 4090 D 单卡上运行,服务成本仅 0.15 美元/百万 tokens,性价比极高。02390大模型开源工具与社区# AI数学辅导工具# K‑12 数学教育# 数学推理大模型
Midjourney V1Midjourney V1 是 Midjourney 推出的首个 AI 图像到视频生成模型,支持 5–21 秒动画短片,提供自动或手动动画模式,是创意视频制作与社交内容生成的新工具。02360商业产品与订阅服务大模型# AI视频生成模型
V‑JEPA 2Meta 最新推出的 世界大模型,基于视频训练世界模型,实现机器理解、预测与计划,支持视频内物理推理、零样本机器人控制,推动 AI 向高级机器智能迈进。02340大模型最近收录AI# 世界大模型
从容大模型从容大模型 是由云从科技(孵化自中科院自动化所)研发的国产通用多模态大语言模型(LLM),支持文本、图像、语音等多模态输入,具备强大的理解、生成与推理能力。02290大模型最近收录AI# 多模态大模型# 大模型
OpenAudioFish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。02270大模型娱乐媒体# AI播客能容创作# AI有声书内容创作# AI游戏角色语音
Qwen3 Embedding阿里云通义千问团队于 2025 年 6 月推出的全新文本嵌入与重排序模型系列,专为文本表征、信息检索和排序任务设计。02260大模型智能推荐系统# AI信息检索# AI语义搜索# AI问答
MagistralMagistral —— Mistral AI 发布的首款 推理模型(reasoning model) 系列,支持推理能力更强、支持多语言、可链式思考。02230API与SDK大模型# 多语言推理能力# 推理模型
盘古大模型5.5盘古大模型 5.5 是华为最新一代大模型系列,包括 Ultra MoE(7180 亿参数)与 Pro MoE(72B 参数)两大版本,搭配快慢思考策略、高效长序列推理和多模态能力,已在智能驾驶、科研与行业落地等场景中展现卓越性能,适合 AI 工具使用者深入探索与应用。02120大模型最近收录AI
Depth Anything 3Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型,可从任意数量与任意视角的图像/视频输入中恢复空间一致的 3D 几何结构,包括深度图、相机位姿、三维点云与新视图合成,非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。01760内容创作大模型# AI 3D艺术
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。01680内容创作大模型# AI语音助手# 多语言语音输出
Seedance 2.0Seedance 2.0 是基于先进 AI 视频生成模型的工具,支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频,适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。01610大模型最近收录AI# 1080p高清视频# AI视频生成# 多镜头叙事
万相2.6阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。01580大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
司农司农(Sinong)是南京农业大学开源的农业领域垂直大语言模型,用于理解与生成农业相关知识,支持农业问答、检索增强与上下文推理等功能,面向 AI 工具使用者提供农业智能分析能力。01560农业科技大模型# 上下文推理# 农业决策支持# 农业大模型
可灵O1可灵O1 是由 可灵AI 发布的全球首款统一多模态视频生成大模型,支持图片、视频与文字混合输入,实现从文生图/文生视频/图生视频到视频编辑的一站式创作流程,适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。01540大模型最近收录AI# AI图像生成# AI视频创作工具# AI视频创作平台