大模型

共 199 篇网址

汇聚全球领先的大模型（LLM）AI 工具，涵盖自然语言处理、图像生成、代码编写、智能问答等核心应用。AI工具导航平台收录国内外优质的大模型应用与开源项目，助力开发者、研究者和企业高效构建智能系统。无论是文本生成、语义理解，还是多模态交互，这里都能找到适合的大模型 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

排序

发布更新浏览点赞

MOSS‑TTSD

MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型，通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成，适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。

03910

大模型最近收录AI # AI客服 # AI播客 # AI语音生成框架

混元‑A13B

混元‑A13B 是腾讯混元团队开源的首个 13B 激活参数 MoE 混合推理模型，提供高效推理、超长上下文（256K tokens）、Agent 工具调用能力和推理模式切换。本文全面解析其架构、性能、部署优化、应用场景和 FAQ，帮助 AI 用户快速理解与落地。

03910

大模型最近收录AI # 256K 超长上下文窗口 # Agent 任务生态

Step‑Audio‑AQAA

Step‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型，支持音频问答任务，从原始音频直接生成自然语音回答，具备情感、语速、方言控制，高保真响应，非常适合 AI 工具使用者构建交互式音频智能系统。

03870

大模型最近收录AI # AI音色控制 # 双重编码器 # 端到端处理

PlayDiffusion

Play AI 公司推出的开源音频编辑模型，基于先进的扩散模型（diffusion model）构建，专注于提供高效的音频精细编辑与修复功能。

03840

大模型开源工具与社区 # AI配音 # AI音频编辑模型 # 播客制作

Grok4.1

Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM)，主打更快的响应、更低的“幻觉率”、更高的情感理解与代码／多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。

03770

大模型最近收录AI

OneRec

OneRec 是一款端到端生成式推荐模型，通过统一检索与排序流程、会话级生成和迭代偏好对齐，显著提升视频推荐质量并已在快手(Kuaishou)平台上线，助力 AI 工具使用者深入理解前沿推荐系统技术。

03770

大模型最近收录AI # 端到端生成模型

MindOmni

MindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型，通过三阶段训练与 RGPO 强化学习，支持图像理解、推理生成与图像编辑，展现出色的数学与视觉推理能力，是面向 AI 工具使用者的开源实用助手。

03730

大模型开源工具与社区 # 多模态大语言模型

豆包大模型1.6

字节跳动火山引擎推出的首款多模态深度思考大模型，支持256K超长上下文、自适应思考、图形界面操作、低成本区间定价。本文详解功能亮点、使用场景、技术原理、常见问题与优化建议，帮助 AI 工具使用者全面掌握豆包1.6 的潜力与落地策略。

03700

API与SDK 大模型 # 多模态深度思考大模型

Ovis‑U1

Ovis‑U1 是阿里巴巴 AIDC‑AI 推出的 30 亿参数统一多模态模型，集图像理解、文本生成、图像生成与编辑能力于一体，适合 AI 工具使用者快速构建多功能视觉交互应用。

03650

大模型计算机视觉 # 多模态模型

NFD

一种高效的视频生成模型，具备单步或少步推理能力，通过一致性蒸馏和 speculative 抽样策略，实现近 30 FPS 的实时视频生成，为交互式视频与流媒体应用带来新机遇。

03630

大模型最近收录AI # AI动画生成 # AI实时内容直播 # AI视频增强

DeepSeek R1T2

DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM，兼顾高推理能力、低延迟与开放开源，适合 AI 工具使用者在本地部署高效问答与生成任务。

03620

大模型开源工具与社区 # AI问答机器人 # 混合式大语言模型

万兴天幕AI

万兴天幕（Wondershare Tomoviee）是万兴科技最新一代音视频多媒体大模型 2.0，由万兴与华为云联合打造，具备视频、图像、音频生成能力，通过天天幕创作广场和 API 引擎，为 AI 工具使用者和开发者提供一站式创作方案。

03570

大模型最近收录AI # AI扩图 # AI艺术生成工具 # AI视频翻译

Eleven v3

由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音（TTS）模型的 Alpha 版本。

03560

大模型最近收录AI # AI多角色对话 # AI广告配音 # AI情感表达

dots.llm1

小红书（RedNote）的 Humane Intelligence Lab（hi lab）开源发布的一款大型稀疏专家（MoE）语言模型。

03430

大模型最近收录AI # AI代码生成 # AI问答助手 # 大型稀疏专家（MoE）语言模型

Mu

Mu 是微软推出的 330M 参数小型语言模型，专为 Copilot+ PC 上的 NPU 本地运行优化，驱动 Windows 设置中的 AI Agent，支持自然语言控制系统设置。超快速响应（<500 ms）、绝对隐私、无需云端，是面向 AI 工具用户的轻量化 AI 交互解决方案。

03420

大模型最近收录AI # 小型语言模型

krea-1

一款强大的 AI图像生成模型，以卓越的图像清晰度、超快实时渲染和风格可训练性为特色。本文深入探讨 Krea 1 的功能、使用方法、技术优势和典型应用场景，并附详尽常见问题解答，助力 AI 工具爱好者快速上手与使用。

03410

大模型最近收录AI # AI图像生成模型 # AI电商视觉创作 # AI艺术生成工具

Grok 4

Grok 4 是 xAI 推出的最新大语言模型，具备实时网络搜索、原生工具调用、多 Agent 推理与多模态能力，适合开发者与 AI 工具使用者用于复杂推理与多场景部署。

03330

API与SDK 大模型 # AI实时搜索 # 多Agent架构 # 强化学习

MiniCPM 4.0

MiniCPM 4.0 是一款以“轻量却强劲、速度远超竞品”为特点的端侧 LLM，适合在设备端部署 AI agent、聊天系统、报告生成等任务。

03330

大模型开源工具与社区

Goedel‑Prover‑V2

Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列，通过专家迭代、自我修正与模型平均三项创新，实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA，适合 AI 工具使用者用于数学推理和 Agent 集成。

03320

大模型开源工具与社区 # 定理证明模型

SmolVLA

SmolVLA ——一款革命性的轻量级视觉-语言-行动（VLA）模型，仅 450M 参数，适合常规硬件训练与部署。

03320

大模型最近收录AI # 行动（VLA）模型

Seaweed APT2

Seaweed APT2 是 ByteDance 最新推出的实时交互式视频生成模型，采用自回归对抗后训练（AAPT）技术，实现单 GPU 24 fps、长视频流式生成，支持虚拟人物与世界漫游互动。

03310

大模型最近收录AI # AI世界漫游模拟 # AI内容创作 # AI虚拟人物动画

Hailuo 02

Hailuo 02 是 MiniMax 推出的最新 AI 视频生成模型，支持文本和图像转视频，具备 768p、10 秒时长选项，具备物理仿真、摄像机控制、高成本效能比，超越 Google Veo 3，适合创作者与开发者使用。

03230

大模型最近收录AI # AI短视频生成 # 图像转视频 # 文本转视频

Ring-lite

Ring-lite 是 InclusionAI 开源的轻量级 MoE 大语言模型（16.8B 参数、2.75B 激活参数），通过 C3PO 强化学习优化跨领域推理性能，高效对标甚至超过主流小体量推理模型。

03200

免费AI工具大模型 # 大语言模型

Gemini 3

Gemini 3 是由 Google DeepMind 推出的最新 AI 模型，融合强大推理、多模态理解与编码/工具调用能力，为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手，适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。

03170

内容创作创意设计 # AI开发 # AI程序员

Qwen3 Reranker

阿里云通义千问团队于 2025 年 6 月发布的开源文本重排序（Reranking）模型，作为 Qwen3 Embedding 系列的一部分。

03120

大模型开源工具与社区 # AI信息检索 # 多语言支持 # 模型

睿标AI—标书智写专家

告别千篇一律！

03100

AI商业 AI常用工具

OmniAudio

阿里巴巴通义实验室开发的空间音频生成模型，能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。

03090

大模型娱乐媒体 # AI增强现实 # AI虚拟现实 # AI音频内容创作

子曰3（Confucius3‑Math）

子曰3（Confucius3‑Math）是网易有道开源的 14B 数学大模型，专注 K‑12 教育，具备高考题 98.5 分实力，可在 RTX 4090 D 单卡上运行，服务成本仅 0.15 美元／百万 tokens，性价比极高。

02990

大模型开源工具与社区 # AI数学辅导工具 # K‑12 数学教育 # 数学推理大模型

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频，适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。

02910

大模型最近收录AI # 1080p高清视频 # AI视频生成 # 多镜头叙事

从容大模型

从容大模型是由云从科技（孵化自中科院自动化所）研发的国产通用多模态大语言模型（LLM），支持文本、图像、语音等多模态输入，具备强大的理解、生成与推理能力。

02880

大模型最近收录AI # 多模态大模型 # 大模型

Step-DeepResearch

一款由 StepFun 团队开源的端到端深度研究智能体 AI 模型。

02860

大模型开源工具与社区 # agent # 反思调整 # 多轮信息检索

Auto Think

Kwaipilot 团队开源的大型语言模型，旨在实现根据问题复杂度自动调节思考深度的能力。

02860

大模型开源工具与社区 # AI代码生成 # AI代码调试 # AI问答助手

XVerse

XVerse 是字节跳动发布的开源多主体图像生成模型，基于 DiT 调制实现对多个人物身份和语义属性（姿态、风格、光照）的独立控制，适合 AI 工具使用者生成复杂定制化场景。

02850

大模型最近收录AI # 多主体图像生成模型

V‑JEPA 2

Meta 最新推出的世界大模型，基于视频训练世界模型，实现机器理解、预测与计划，支持视频内物理推理、零样本机器人控制，推动 AI 向高级机器智能迈进。

02800

大模型最近收录AI # 世界大模型

Midjourney V1

Midjourney V1 是 Midjourney 推出的首个 AI 图像到视频生成模型，支持 5–21 秒动画短片，提供自动或手动动画模式，是创意视频制作与社交内容生成的新工具。

02790

商业产品与订阅服务大模型 # AI视频生成模型

o3‑pro

o3‑pro——OpenAI 最新高端推理大模型，具备超强逻辑思维能力、工具调用能力与行业基准测试优势，适用于编码、科研、教育等专业场景。

02740

大模型最近收录AI # 推理大模型

OpenAudio

Fish Audio 推出的新一代文本转语音（TTS）模型，旨在生成高度自然、富有情感的语音输出。

02730

大模型娱乐媒体 # AI播客能容创作 # AI有声书内容创作 # AI游戏角色语音

盘古大模型5.5

盘古大模型 5.5 是华为最新一代大模型系列，包括 Ultra MoE（7180 亿参数）与 Pro MoE（72B 参数）两大版本，搭配快慢思考策略、高效长序列推理和多模态能力，已在智能驾驶、科研与行业落地等场景中展现卓越性能，适合 AI 工具使用者深入探索与应用。

02710

大模型最近收录AI

Qwen3 Embedding

Qwen3 Embedding

阿里云通义千问团队于 2025 年 6 月推出的全新文本嵌入与重排序模型系列，专为文本表征、信息检索和排序任务设计。

02710

大模型智能推荐系统 # AI信息检索 # AI语义搜索 # AI问答

Magistral

Magistral —— Mistral AI 发布的首款推理模型（reasoning model）系列，支持推理能力更强、支持多语言、可链式思考。

02690

API与SDK 大模型 # 多语言推理能力 # 推理模型

Live Avatar

一个面向 AI 工具使用者的先进实时音频驱动交互式头像生成系统。

02610

大模型最近收录AI # AI视频生成 # AI视频通话

万相2.6

阿里通义万相最新发布的视频生成 AI 模型，支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步，为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。

02610

大模型最近收录AI # AI数字人 # AI虚拟角色 # AI视频生成模型

Qwen3-Omni-Flash

Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态（omni-modal）大模型，支持文本、图像、音频和视频等多种输入，并能实时流式输出文本与自然语音，具备高效多模态理解与交互能力，覆盖 119 种文本语言及多语言语音交互，实现真正无缝实时 AI 体验。

02610

内容创作大模型 # AI语音助手 # 多语言语音输出

LongCat-Video-Avatar

美团 LongCat 团队开源的音频驱动长视频角色动画生成模型。

02600

大模型开源工具与社区 # AI长视频生成 # 视频扩展 # 音频-文本-图像生成视频

Depth Anything 3

Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型，可从任意数量与任意视角的图像／视频输入中恢复空间一致的 3D 几何结构，包括深度图、相机位姿、三维点云与新视图合成，非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。

02520

内容创作大模型 # AI 3D艺术

TRELLIS.2

微软发布的开源图像到 3D 生成 AI 模型。

02510

大模型开源工具与社区 # 3D生成模型

MedGemma 1.5

MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体，支持医学文本理解、医学影像分析与生成，用于加速医疗 AI 应用的开发与验证。

02480

医疗与健康大模型 # 临床提示响应 # 医学图像理解 # 医学文本分析

Qwen-Image-Layered

由 Qwen 团队开发的图像分层 AI 模型，可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层，实现类似专业图像编辑软件的分层操作。

02410

大模型开源工具与社区 # 图像分层模型

NitroGen

一个全新的视觉-动作基础模型（Vision-Action Foundation Model），由 NVIDIA 等机构联合研发并开源，专注于通用游戏智能体的学习与控制。

02370

大模型最近收录AI # AI游戏开发 # AI视觉编码器

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 200K Token 的长上下文容量，具备先进的推理、编码、智能体任务及复杂逻辑处理能力，定位于开放源代码旗舰基础模型。

02360

大模型开源工具与社区 # Moe架构 # 大型语言模型 # 智能体任务

AI大学堂