大模型

共 199 篇网址

汇聚全球领先的大模型（LLM）AI 工具，涵盖自然语言处理、图像生成、代码编写、智能问答等核心应用。AI工具导航平台收录国内外优质的大模型应用与开源项目，助力开发者、研究者和企业高效构建智能系统。无论是文本生成、语义理解，还是多模态交互，这里都能找到适合的大模型 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

排序

发布更新浏览点赞

DeepSeek

DeepSeek 是一款性能强大、应用广泛、创新显著的大模型，展示了国产 AI 在技术和生态上的新高度。

01,92523

大模型大模型 API # AGI # DeepSeek # DeepSeek API

讯飞星火SparkDesk

深度推理能力全新升级，全面对标OpenAI o1

02,24910

AI工具下载 AI热门产品 # AI创作 # AI助手 # AI搜索

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 200K Token 的长上下文容量，具备先进的推理、编码、智能体任务及复杂逻辑处理能力，定位于开放源代码旗舰基础模型。

02340

大模型开源工具与社区 # Moe架构 # 大型语言模型 # 智能体任务

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场景创作和商业级视觉资产生产。

01760

大模型最近收录AI # 4K输出 # AI图像生成 # 图像编辑

SoulX-FlashTalk

SoulX-FlashTalk 是 Soul AI Lab 开源的实时数字人生成模型，基于 14B 参数级别架构，通过自纠正双向蒸馏和全栈推理加速技术实现亚秒级延迟（0.87s）和持续 32 FPS 实时视频生成，主要用于音频驱动的虚拟形象交互、长时生成流式输出和多语言驱动应用场景。

01910

大模型最近收录AI # 亚秒级延迟 # 交互性能 # 实时数字人生成

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频，适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。

02870

大模型最近收录AI # 1080p高清视频 # AI视频生成 # 多镜头叙事

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与机器人动作序列推理的统一，在真实机器人与仿真环境中提升长时序与复杂操作任务的表现。

01900

大模型开源工具与社区 # 机器人操作控制 # 自回归推理 # 视觉动作世界模型

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 于 2026 年 2 月发布的下一代 Claude 系列 AI 模型变体，旨在增强编程任务、智能体执行、多步骤推理与超长上下文处理能力，支持长文档与大规模代码库分析、适用于复杂工作流与企业级应用。

02190

API与SDK 大模型 # 128K输出 # 智能代理编码 # 自适应思考模式

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时转写的 Voxtral Realtime。该系列支持 13 种语言、精准说话人分离、上下文偏向、词级时间戳和极低延迟的实时转录能力，并提供开源权重与企业部署选项。

01390

大模型开源工具与社区 # 多语言支持 # 实时转录 # 语音转写

Intern-S1-Pro

Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型，具备混合专家（MoE）架构与通专融合架构（SAGE），在 AI4Science 科学推理与多模态理解任务上展现领先能力，支持跨学科科学研究与科研流程自动化。

01690

大模型开源工具与社区 # AI4Science 推理 # MoE 混合专家 # 科学多模态大模型

MOVA

MOVA（MOSS Video and Audio）是上海创智学院 OpenMOSS 团队与模思智能（MOSI）联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制，在单次推理中同步生成视频与音频输出，具备多语言唇形同步与环境音效生成等能力，支持最高 720p 和最长 8 秒的视听片段生成。

01830

大模型开源工具与社区 # MOVA # 端到端多模态模型 # 音视频同步生成

GLM-OCR

GLM-OCR 是智谱 AI（Zhipu AI）发布的开源轻量级多模态 OCR 模型，参数约 0.9B，基于 GLM-V 架构及 CogViT 视觉编码器，优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。

01760

大模型开源工具与社区 # OCR 模型 # 多模态 OCR # 结构化输出

Step 3.5 Flash

Step 3.5 Flash 是 StepFun 发布的开源大语言模型，采用稀疏 Mixture-of-Experts (MoE) 架构以提升推理与逻辑任务效率，支持长上下文与高速度生成能力，适合用于编码、代理任务及复杂多步骤推理。模型提供本地部署与 API 接入选项，支持长达 256K 上下文处理能力。

01210

大模型开源工具与社区 # Agent 基座模型 # 上下长文 # 大语言模型

ACE-Step 1.5

ACE-Step 1.5 是一个开源 AI 音乐生成基础模型，采用混合架构支持快速生成整首音乐、歌词对齐、多语言支持及灵活编辑功能，输出结构化内容资产聚焦音乐生成能力、用例及用户指南。

01370

大模型开源工具与社区 # ACE-Step 1.5 # AI 音乐生成 # 音乐生成基础模型

可灵3.0模型

可灵3.0模型是快手推出的新一代统一多模态AI创作模型，支持图像与视频生成、智能分镜、多语言音画同步等功能。

01510

大模型最近收录AI # AI图像生成 # AI视频生成 # Kling 3.0

Qwen3-Coder-Next

Qwen3-Coder-Next 是 Qwen 发布的开源编码大模型，采用稀疏 Mixture-of-Experts 设计与混合注意力结构，支持超长约 256K 上下文，面向 agentic 编码工作流、本地开发和多步骤工具调用，适用于复杂代码理解、调试和自动化修正任务。

01540

大模型最近收录AI # Agentic 编码 # MoE # Qwen3-Coder-Next

MiniCPM-o 4.5

MiniCPM-o 4.5 是 OpenBMB 开源的一款全双工端到端多模态大模型（Vision + Language + Speech），具有实时语音对话、多模态实时流处理、视觉语义理解和 OCR 文档解析能力，适用于 AI 工具使用者在不同场景下进行端侧或服务器推理部署。

01480

大模型最近收录AI # MiniCPM-o 4.5 # OCR # 多模态

UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的视觉-语言-动作（VLA）通用机器人操作大模型，基于 Qwen2.5-VL-7B 架构并通过机器人操作数据持续预训练，实现文本指令与视觉信息融合用于空间理解与动作规划，可在仿真与真实机器人上完成多类复杂操作任务。

01350

大模型最近收录AI # UnifoLM-VLA-0 # VLA # 多模态推理

Vidu Q3

Vidu Q3 是由生数科技（Shengshu Technology）推出的新一代 AI 视频生成模型，可直接生成最高 16 秒、1080p 分辨率、音视频同步的视觉内容，结合文本或图像提示实现多镜头叙事、音频配合与语言文字渲染，适用于短剧、广告、自媒体等多种视觉内容创作场景。

01500

大模型最近收录AI # AI 视频生成 # Vidu Q3 # 原生音频生成

Mureka V8

Mureka V8 是一个由 Mureka 平台提供的 AI 音乐生成模型，基于 MusiCoT（Music Chain-of-Thought）技术，可从文本提示、歌词或参考音频生成完整的歌曲、伴奏及声乐，支持多语言输入和 API 集成，适用于内容创作、游戏配乐、音乐制作与企业应用。

01620

内容创作大模型 # AI 音乐生成 # Mureka V8 # MusiCoT

MiniMax Music 2.5

MiniMax Music 2.5 是 MiniMax 发布的 AI 音乐生成模型，在段落级音乐结构控制与物理级高保真音频生成两个核心维度实现突破，支持精细化控制音乐结构、声乐表现和混音策略，适用于专业音乐创作与生成工作流。

01380

大模型最近收录AI # AI 音乐生成 # MiniMax Music 2.5 # 段落级控制

MiniMax-M2-her

MiniMax-M2-her 是 MiniMax 平台专为对话与角色扮演场景优化的变体，基于 M2 系列大规模模型实现更一致的多轮对话、丰富的角色设定和上下文记忆能力。

01210

大模型最近收录AI # Agentic 数据合成 # MiniMax-M2-her # 上下文记忆

Qwen3-Max-Thinking

Qwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型，用于复杂逻辑推理、数学与编码任务，并支持大上下文输入（约 262K 令牌），提供可调 reasoning depth（思考预算）机制以平衡推理质量与延迟。

01750

大模型最近收录AI # Alibaba AI # Qwen3-Max # 复杂推理

Kimi K2.5

Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型，支持文本、图像、视频和 PDF 等输入类型，具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力，适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。

01630

大模型最近收录AI # Agent Swarm # 多模态模型 # 并行任务执行

Vidu Q2参考生Pro

Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型，支持多模态输入（视频与图片），用于生成高一致性、精细化的视频内容，涵盖人物、场景、动作与特效等创作需求。

01590

大模型最近收录AI # AI视频编辑 # Vidu Q2参考生Pro # 人物表情迁移

DeepSeek-OCR 2

DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR（光学字符识别）视觉语言模型，基于 Visual Causal Flow 机制处理图像与文档输入，生成结构化文本输出（如 Markdown/JSON），用于复杂文档的逻辑顺序转录与布局感知识别。

01440

大模型最近收录AI # Markdown 输出 # OCR 模型 # 复杂布局识别

LightOnOCR-2-1B

LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR（光学字符识别）模型，用于将文档图像（如 PDF、扫描件或照片）转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别，并支持多种输入格式与布局类型。

01560

大模型最近收录AI # 图像检测 # 多语言支持 # 布局解析

FrogBoss

FrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法（BugPilot）训练出的开源编程智能体模型，专用于软件工程任务评估与调试技能提升，在 SWE-Bench-Verified 等基准测试中达到领先表现。

01920

大模型最近收录AI # SWE-Bench-Verified 基准 # 合成 bug 训练 # 复杂 bug 生成

AgentCPM-Explore

AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型，在多项长程智能体基准测试中取得领先表现，支持超 100 轮持续环境交互，并提供配套的开源训练与评测基础设施。

02140

大模型开源工具与社区 # 强化学习框架 # 智能体模型 # 端侧部署

TranslateGemma

TranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列，基于 Gemma 3 架构构建，支持 55 种语言的文本与图像内文字翻译，提供多种参数规模以适应不同部署场景。

01750

大模型开源工具与社区 # Gemma 3 # 图像内文字翻译 # 多语言翻译

FLUX.2 [klein]

FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族，支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能，适用于研究、开发和交互式视觉智能应用。

02070

大模型开源工具与社区 # 低延迟推理 # 多参考图像支持 # 实时图像生成

MedGemma 1.5

MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体，支持医学文本理解、医学影像分析与生成，用于加速医疗 AI 应用的开发与验证。

02430

医疗与健康大模型 # 临床提示响应 # 医学图像理解 # 医学文本分析

司农

司农（Sinong）是南京农业大学开源的农业领域垂直大语言模型，用于理解与生成农业相关知识，支持农业问答、检索增强与上下文推理等功能，面向 AI 工具使用者提供农业智能分析能力。

02300

农业科技大模型 # 上下文推理 # 农业决策支持 # 农业大模型

UI-TARS Desktop

UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具，基于 UI-TARS 视觉语言模型（VLM），可通过自然语言控制计算机界面，实现图形界面识别与操作。

01690

大模型开源工具与社区 # 桌面 GUI Agent # 视觉语言模型（VLM）

GLM-4.7

Z.ai 推出的最新一代大型开源语言模型，专为复杂推理、编码任务和智能代理型场景设计。

02030

大模型开源工具与社区 # AI编码助手

Tencent-HY-MT1.5

腾讯混元（Hunyuan）推出的开源高质量机器翻译模型系列，支持 33 种语言互译和多种方言/民族语言，包括轻量级端侧部署能力与高性能翻译表现。

02110

大模型开源工具与社区 # AI翻译模型 # 多语言上下文理解

NitroGen

一个全新的视觉-动作基础模型（Vision-Action Foundation Model），由 NVIDIA 等机构联合研发并开源，专注于通用游戏智能体的学习与控制。

02350

大模型最近收录AI # AI游戏开发 # AI视觉编码器

Step-DeepResearch

一款由 StepFun 团队开源的端到端深度研究智能体 AI 模型。

02840

大模型开源工具与社区 # agent # 反思调整 # 多轮信息检索

Qwen-Image-Layered

由 Qwen 团队开发的图像分层 AI 模型，可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层，实现类似专业图像编辑软件的分层操作。

02380

大模型开源工具与社区 # 图像分层模型

T5Gemma 2

T5Gemma 2 是谷歌推出的下一代编码器-解码器（Encoder-Decoder）AI 模型系列，基于 Gemma 3 家族架构，新增多模态输入与超长上下文处理能力。

02090

大模型最近收录AI # 解码器大型语言模型

FunctionGemma

FunctionGemma 是 Google 发布的轻量级 AI 模型，专为函数调用（function calling）和工具执行任务优化，可将自然语言指令精准转换为可执行 API 调用或本地操作，并在设备端高效运行。

01860

大模型最近收录AI # 函数调用模型

Kairos 3.0

大晓机器人推出的开源世界模型，专为具身智能、机器人环境理解与动态预测设计。

02260

大模型开源工具与社区 # 世界模型 # 图像转视频 # 文本转视频

GPT-5.2-Codex

OpenAI 发布的最新代理编码与高级软件工程 AI 模型。

02180

大模型最近收录AI # Agentic Coding # AI编程工具

TRELLIS.2

微软发布的开源图像到 3D 生成 AI 模型。

02490

大模型开源工具与社区 # 3D生成模型

SHARP

苹果推出的开源单目视图 3D 场景合成模型。

02230

内容创作大模型 # AI 3D渲染

字节跳动Seed

字节跳动发布的通用 Agent AI 模型。

02220

大模型最近收录AI # Agent 大模型 # 多模态智能体

SAM Audio

Meta 推出的统一多模态音频分离 AI 模型。

01920

大模型最近收录AI # AI音频处理 # 多模态音频分离模型

混元世界模型1.5

腾讯发布的实时交互式 3D 世界生成模型。

02260

大模型最近收录AI # 世界模型 # 实时交互式 3D 世界生成 AI 模型

GPT Image 1.5

OpenAI 发布的最新图像生成与编辑 AI 模型，作为 ChatGPT Images 的核心引擎，它以最高达 4× 更快的生成速度、更强的指令执行力、精细细节保留与创意转换能力为特性，支持创意图像生成、照片编辑与视觉工作流自动化。

02230

内容创作大模型 # AI图像生成模型 # AI图像编辑模型 # 文本生成图像

MiMo-V2-Flash

小米开源的高效混合专家（MoE）大语言模型，具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持，在推理、代码生成与智能体任务上表现出色。

01870

大模型开源工具与社区

AI大学堂