AI 大模型
354 个实体 · 自动按 Tier 分层 · NavXD 知识图谱已收录
旗舰
// TIER-1 · 本主题最具影响力的 12 个NextChat
一款开源且可自托管的 AI 聊天平台。
New API
用于统一管理与分发多模型接口的开源 AI 网关系统。
UI-TARS Desktop
UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM)
OpenAudio
Fish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。
MiniCPM-o 4.5
MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型(Vision + Language + Sp
Chatterbox
Resemble AI 开发并于 2025 年开源发布的高性能文本转语音(TTS)模型。
SmolVLA
SmolVLA ——一款革命性的轻量级视觉-语言-行动(VLA)模型,仅 450M 参数,适合常规硬件训练与部署。
Qwen3-Coder-Next
Qwen3-Coder-Next 是 Qwen 发布的开源编码大模型,采用稀疏 Mixture-of-Experts 设计与混合
TensorRT LLM
TensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行
SHARP
苹果推出的开源单目视图 3D 场景合成模型。
TRELLIS.2
微软发布的开源 图像到 3D 生成 AI 模型。
GLM-OCR
GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及
实用
// TIER-2 · 稳定推荐档DeepSeek-OCR 2
DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual
PartCrafter
PartCrafter ——首个支持从单张 RGB 图像生成结构化 3D 模型 的 AI 工具。
Live Avatar
一个面向 AI 工具使用者的先进 实时音频驱动交互式头像生成系统。
HunyuanVideo-Avatar
腾讯混元团队联合腾讯音乐天琴实验室(MuseV)于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。
Step 3.5 Flash
Step 3.5 Flash 是 StepFun 发布的开源大语言模型,采用稀疏 Mixture-of-Experts (MoE
Qwen3 Embedding
阿里云通义千问团队于 2025 年 6 月推出的全新文本嵌入与重排序模型系列,专为文本表征、信息检索和排序任务设计。
Fireplexity
Fireplexity是由Firecrawl推出的开源 AI 问答引擎,通过实时网页抓取、流式生成与引用标注,为 AI 工具使用
Qwen-Image-Layered
由 Qwen 团队开发的 图像分层 AI 模型,可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层,实现类似专业图像编辑
MMaDA
实现跨文本推理、多模态理解和文本到图像生成等多个领域的卓越性能。
SongGeneration
SongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考
DeepSeek-Math-V2
DeepSeek-Math-V2 是一个开源数学推理模型,通过“生成 + 自验证 (generate-and-verify)”机
MedGemma
Google 于 2025 年 5 月在 Google I/O 大会上推出的开源多模态医疗 AI 模型套件。
MiMo-V2-Flash
小米开源的高效混合专家(MoE)大语言模型,具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256
SoulX-FlashTalk
SoulX-FlashTalk 是 Soul AI Lab 开源的实时数字人生成模型,基于 14B 参数级别架构,通过自纠正双向
LingBot-VA
LingBot-VA 是蚂蚁灵波科技(Robbyant / Ant Group)发布的开源具身世界模型。该模型首次提出自回归视频
DeepEyes
DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型,旨在实现“用图思考”的能力。该模型通过端到端的强化学
Redirecting...
Kimi‑Dev 是 MoonshotAI 推出的开源 编码 LLM,采用强化学习方案 BugFixer 与 TestWrite
MOVA
MOVA(MOSS Video and Audio)是上海创智学院 OpenMOSS 团队与模思智能(MOSI)联合发布的开源端
RoboBrain2.0
RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”,融合视觉、语言与交互推理,支持 7B/32B 模型,
Intern-S1-Pro
Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型,具备混合专家(MoE)架构与通专融合架构(SA
AgentCPM-Explore
AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型
Tencent-HY-MT1.5
腾讯混元(Hunyuan)推出的开源 高质量机器翻译模型系列,支持 33 种语言互译和多种方言/民族语言,包括轻量级端侧部署能力
MiMo-VL
小米公司于 2025 年 5 月开源发布的一款多模态大模型,具备强大的视觉、语言和交互推理能力。
Step-DeepResearch
一款由 StepFun 团队开源的 端到端深度研究智能体 AI 模型。
按类型浏览
// 7 种实体 · 每类 Top 6工具 // 178
查看全部 178 个 →NextChat
一款开源且可自托管的 AI 聊天平台。
OpenAudio
Fish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。
MiniCPM-o 4.5
MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型(Vision + Language + Sp
Chatterbox
Resemble AI 开发并于 2025 年开源发布的高性能文本转语音(TTS)模型。
SmolVLA
SmolVLA ——一款革命性的轻量级视觉-语言-行动(VLA)模型,仅 450M 参数,适合常规硬件训练与部署。
SHARP
苹果推出的开源单目视图 3D 场景合成模型。
模型 // 121
查看全部 121 个 →Qwen3-Coder-Next
Qwen3-Coder-Next 是 Qwen 发布的开源编码大模型,采用稀疏 Mixture-of-Experts 设计与混合
TensorRT LLM
TensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行
GLM-OCR
GLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及
BAGEL
字节跳动的开源多模态基础模型。
Skywork‑R1V 3.0
Skywork‑R1V 3.0 是一款开源的多模态视觉‑语言推理模型,采用视觉 CoT、强化学习优化,在 MMMU、MathVi
DeepSeek
DeepSeek 是一款性能强大、应用广泛、创新显著的大模型,展示了国产 AI 在技术和生态上的新高度。
公司 // 32
查看全部 32 个 →New API
用于统一管理与分发多模型接口的开源 AI 网关系统。
Anthropic
Anthropic 是 AI 安全与创新的领导者,其旗舰产品 Claude 提供 cutting-edge 性能和安全性,适用于
Fireplexity
Fireplexity是由Firecrawl推出的开源 AI 问答引擎,通过实时网页抓取、流式生成与引用标注,为 AI 工具使用
Intern-S1-Pro
Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型,具备混合专家(MoE)架构与通专融合架构(SA
MiMo-VL
小米公司于 2025 年 5 月开源发布的一款多模态大模型,具备强大的视觉、语言和交互推理能力。
DataChef
上海 AI Lab 与复旦大学开源的数据配方生成模型。
智能体 // 19
查看全部 19 个 →UI-TARS Desktop
UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM)
Microsoft Copilot
Microsoft Copilot 是一款智能协作工具,由微软开发,旨在通过集成人工智能技术,为用户提供更高效的办公体验。
Copilot
微软旗下的AI助手,以聊天对话和集成插件为特色,和bing搜索集合使用,具有gpt4能力。
AgentCPM-Explore
AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型
Step-DeepResearch
一款由 StepFun 团队开源的 端到端深度研究智能体 AI 模型。
混元‑A13B
混元‑A13B 是腾讯混元团队开源的首个 13B 激活参数 MoE 混合推理模型,提供高效推理、超长上下文(256K token
