AI工具导航
AI工具导航站长导航教师导航服装业导航自媒体导航娱乐业导航
  • AI工具应用集
  • AI博客文章
  • 账号购买
    • 账号合租
  • AI投稿
  • AI排行榜
  • 提示词商城
      • 未登录
        登录后即可体验更多功能
    • AI工具应用集
    • AI博客文章
    • 账号购买
      • 账号合租
    • AI投稿
    • AI排行榜
    • 提示词商城
    未登录
    登录后即可体验更多功能

    大模型

    共 179 篇网址
    汇聚全球领先的大模型(LLM)AI 工具,涵盖自然语言处理、图像生成、代码编写、智能问答等核心应用。AI工具导航平台收录国内外优质的大模型应用与开源项目,助力开发者、研究者和企业高效构建智能系统。无论是文本生成、语义理解,还是多模态交互,这里都能找到适合的大模型 AI 解决方案。
    AI商业AI常用工具AI教育AI服装设计AI热门产品AI生活助理SEO优化与推广SEO工具交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 APIAI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI精选AI集成开发环境(IDE)免费AI工具
    排序
    发布更新浏览点赞
    Qwen3-Max-Thinking

    Qwen3-Max-Thinking

    Qwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡推理质量与延迟。
    050
    大模型最近收录AI# Alibaba AI# Qwen3-Max# 复杂推理
    Kimi K2.5

    Kimi K2.5

    Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。
    020
    大模型最近收录AI# Agent Swarm# 多模态模型# 并行任务执行
    Vidu Q2参考生Pro

    Vidu Q2参考生Pro

    Vidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。
    050
    大模型最近收录AI# AI视频编辑# Vidu Q2参考生Pro# 人物表情迁移
    DeepSeek-OCR 2

    DeepSeek-OCR 2

    DeepSeek-OCR 2 是 DeepSeek AI 发布的端到端 OCR(光学字符识别)视觉语言模型,基于 Visual Causal Flow 机制处理图像与文档输入,生成结构化文本输出(如 Markdown/JSON),用于复杂文档的逻辑顺序转录与布局感知识别。
    020
    大模型最近收录AI# Markdown 输出# OCR 模型# 复杂布局识别
    LightOnOCR-2-1B

    LightOnOCR-2-1B

    LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局类型。
    090
    大模型最近收录AI# 图像检测# 多语言支持# 布局解析
    FrogBoss

    FrogBoss

    FrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法(BugPilot)训练出的开源编程智能体模型,专用于软件工程任务评估与调试技能提升,在 SWE-Bench-Verified 等基准测试中达到领先表现。
    0210
    大模型最近收录AI# SWE-Bench-Verified 基准# 合成 bug 训练# 复杂 bug 生成
    AgentCPM-Explore

    AgentCPM-Explore

    AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型,在多项长程智能体基准测试中取得领先表现,支持超 100 轮持续环境交互,并提供配套的开源训练与评测基础设施。
    0330
    大模型开源工具与社区# 强化学习框架# 智能体模型# 端侧部署
    TranslateGemma

    TranslateGemma

    TranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列,基于 Gemma 3 架构构建,支持 55 种语言的文本与图像内文字翻译,提供多种参数规模以适应不同部署场景。
    0340
    大模型开源工具与社区# Gemma 3# 图像内文字翻译# 多语言翻译
    FLUX.2 [klein]

    FLUX.2 [klein]

    FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族,支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能,适用于研究、开发和交互式视觉智能应用。
    0360
    大模型开源工具与社区# 低延迟推理# 多参考图像支持# 实时图像生成
    MedGemma 1.5

    MedGemma 1.5

    MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体,支持医学文本理解、医学影像分析与生成,用于加速医疗 AI 应用的开发与验证。
    0380
    医疗与健康大模型# 临床提示响应# 医学图像理解# 医学文本分析
    司农

    司农

    司农(Sinong)是南京农业大学开源的农业领域垂直大语言模型,用于理解与生成农业相关知识,支持农业问答、检索增强与上下文推理等功能,面向 AI 工具使用者提供农业智能分析能力。
    0720
    农业科技大模型# 上下文推理# 农业决策支持# 农业大模型
    UI-TARS Desktop

    UI-TARS Desktop

    UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM),可通过自然语言控制计算机界面,实现图形界面识别与操作。
    0360
    大模型开源工具与社区# 桌面 GUI Agent# 视觉语言模型(VLM)
    GLM-4.7

    GLM-4.7

    Z.ai 推出的最新一代大型开源语言模型,专为复杂推理、编码任务和智能代理型场景设计。
    0510
    大模型开源工具与社区# AI编码助手
    Tencent-HY-MT1.5

    Tencent-HY-MT1.5

    腾讯混元(Hunyuan)推出的开源 高质量机器翻译模型系列,支持 33 种语言互译和多种方言/民族语言,包括轻量级端侧部署能力与高性能翻译表现。
    0470
    大模型开源工具与社区# AI翻译模型# 多语言上下文理解
    NitroGen

    NitroGen

    一个全新的视觉-动作基础模型(Vision-Action Foundation Model),由 NVIDIA 等机构联合研发并开源,专注于通用游戏智能体的学习与控制。
    0530
    大模型最近收录AI# AI游戏开发# AI视觉编码器
    Step-DeepResearch

    Step-DeepResearch

    一款由 StepFun 团队开源的 端到端深度研究智能体 AI 模型。
    0590
    大模型开源工具与社区# agent# 反思调整# 多轮信息检索
    Qwen-Image-Layered

    Qwen-Image-Layered

    由 Qwen 团队开发的 图像分层 AI 模型,可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层,实现类似专业图像编辑软件的分层操作。
    0490
    大模型开源工具与社区# 图像分层模型
    T5Gemma 2

    T5Gemma 2

    T5Gemma 2 是谷歌推出的下一代 编码器-解码器(Encoder-Decoder)AI 模型系列,基于 Gemma 3 家族架构,新增多模态输入与超长上下文处理能力。
    0540
    大模型最近收录AI# 解码器大型语言模型
    FunctionGemma

    FunctionGemma

    FunctionGemma 是 Google 发布的轻量级 AI 模型,专为 函数调用(function calling)和工具执行任务 优化,可将自然语言指令精准转换为可执行 API 调用或本地操作,并在设备端高效运行。
    0600
    大模型最近收录AI# 函数调用模型
    Kairos 3.0

    Kairos 3.0

    大晓机器人推出的 开源世界模型,专为具身智能、机器人环境理解与动态预测设计。
    0750
    大模型开源工具与社区# 世界模型# 图像转视频# 文本转视频
    GPT-5.2-Codex

    GPT-5.2-Codex

    OpenAI 发布的最新 代理编码与高级软件工程 AI 模型。
    0660
    大模型最近收录AI# Agentic Coding# AI编程工具
    TRELLIS.2

    TRELLIS.2

    微软发布的开源 图像到 3D 生成 AI 模型。
    0720
    大模型开源工具与社区# 3D生成模型
    SHARP

    SHARP

    苹果推出的开源单目视图 3D 场景合成模型。
    0640
    内容创作大模型# AI 3D渲染
    字节跳动Seed

    字节跳动Seed

    字节跳动发布的通用 Agent AI 模型。
    0700
    大模型最近收录AI# Agent 大模型# 多模态智能体
    SAM Audio

    SAM Audio

    Meta 推出的统一多模态音频分离 AI 模型。
    0640
    大模型最近收录AI# AI音频处理# 多模态音频分离模型
    混元世界模型1.5

    混元世界模型1.5

    腾讯发布的实时交互式 3D 世界生成模型。
    0700
    大模型最近收录AI# 世界模型# 实时交互式 3D 世界生成 AI 模型
    GPT Image 1.5

    GPT Image 1.5

    OpenAI 发布的最新图像生成与编辑 AI 模型,作为 ChatGPT Images 的核心引擎,它以 最高达 4× 更快的生成速度、更强的指令执行力、精细细节保留与创意转换能力 为特性,支持创意图像生成、照片编辑与视觉工作流自动化。
    0570
    内容创作大模型# AI图像生成模型# AI图像编辑模型# 文本生成图像
    MiMo-V2-Flash

    MiMo-V2-Flash

    小米开源的高效混合专家(MoE)大语言模型,具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持,在推理、代码生成与智能体任务上表现出色。
    0620
    大模型开源工具与社区
    LongCat-Video-Avatar

    LongCat-Video-Avatar

    美团 LongCat 团队开源的音频驱动长视频角色动画生成模型。
    0680
    大模型开源工具与社区# AI长视频生成# 视频扩展# 音频-文本-图像生成视频
    Live Avatar

    Live Avatar

    一个面向 AI 工具使用者的先进 实时音频驱动交互式头像生成系统。
    0710
    大模型最近收录AI# AI视频生成# AI视频通话
    Seedance 1.5 Pro

    Seedance 1.5 Pro

    字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。
    0570
    内容创作大模型# AI情感短片视频生成# AI视频生成# 音视频联合生成模型
    万相2.6

    万相2.6

    阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。
    0690
    大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
    GWM-1

    GWM-1

    GWM-1 是由 Runway 发布的首个通用世界模型(General World Model),基于 Gen-4.5 架构,通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支,适用于交互式世界构建、机器人训练与数字人生成等领域。
    0570
    大模型最近收录AI# 世界模型
    GPT-5.2

    GPT-5.2

    GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日发布的最新大模型版本,专为专业知识工作、复杂多步骤任务以及更高效的生成式智能体验打造,在生成电子表格、演示文稿、代码、长文本理解和工具调用等方面显著领先前代,适合企业级应用与生产力提升。
    0670
    大模型最近收录AI# chatgpt5.2
    Qwen3-Omni-Flash

    Qwen3-Omni-Flash

    Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。
    0860
    内容创作大模型# AI语音助手# 多语言语音输出
    可灵O1

    可灵O1

    可灵O1 是由 可灵AI 发布的全球首款统一多模态视频生成大模型,支持图片、视频与文字混合输入,实现从文生图/文生视频/图生视频到视频编辑的一站式创作流程,适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。
    0870
    大模型最近收录AI# AI图像生成# AI视频创作工具# AI视频创作平台
    Vidi2

    Vidi2

    Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型,支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成,是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。
    0610
    大模型开源工具与社区# AI长视频处理
    Depth Anything 3

    Depth Anything 3

    Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型,可从任意数量与任意视角的图像/视频输入中恢复空间一致的 3D 几何结构,包括深度图、相机位姿、三维点云与新视图合成,非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。
    01180
    内容创作大模型# AI 3D艺术
    DeepSeek-Math-V2

    DeepSeek-Math-V2

    DeepSeek-Math-V2 是一个开源数学推理模型,通过“生成 + 自验证 (generate-and-verify)”机制,实现了 IMO 金牌水平的定理证明与数学竞赛能力,非常适合研究者、学生、开发者与数学爱好者用于复杂数学问题求解、证明辅助与教育 /学习。
    0810
    大模型开源工具与社区# AI数学模型
    Grok4.1

    Grok4.1

    Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM),主打更快的响应、更低的“幻觉率”、更高的情感理解与代码/多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。
    02450
    大模型最近收录AI
    Gemini 3

    Gemini 3

    Gemini 3 是由 Google DeepMind 推出的最新 AI 模型,融合强大推理、多模态理解与编码/工具调用能力,为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手,适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。
    01820
    内容创作创意设计# AI开发# AI程序员
    Z-Image

    Z-Image

    Z-Image 是阿里通义 (Tongyi MAI) 发布的高效 6 B 图像生成与编辑基础模型,支持高逼真度渲染、中英双语文本、低资源运行与快速推理,为创作者、设计师和开发者提供了兼顾质量与效率的开放图像生成方案。
    01010
    大模型开源工具与社区# AI图像生成模型# AI图像编辑模型# 文生图
    FLUX.2

    FLUX.2

    FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型,支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性,适合设计师、营销、产品可视化和创意团队进行专业级图像创作。
    0800
    内容创作大模型# AI图像模型# AI图像编辑# 文生图像
    睿标AI—标书智写专家

    睿标AI—标书智写专家

    告别千篇一律!
    01840
    AI商业AI常用工具
    Higgs Audio V2

    Higgs Audio V2

    Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。
    03620
    大模型开源工具与社区# AI情感语音合成# AI语音克隆# 音频生成与理解基础模型
    Step 3

    Step 3

    Step 3 是 StepFun 发布的一款多模态大语言模型,具备文本、图像与视频理解生成能力,将于 2025 年底开源,适合 AI 工具使用者构建多模态 Agent 与应用。
    06940
    大模型最近收录AI# 多模态Agent# 通用模型
    Agentar‑Fin‑R1

    Agentar‑Fin‑R1

    Agentar‑Fin‑R1 是一系列基于 Qwen3 构建的金融专业大语言模型(8B 与 32B),专为金融推理、安全合规与高效训练优化,适合 AI 工具使用者部署金融智能解决方案。
    06110
    大模型最近收录AI# 金融大模型
    Qwen‑MT

    Qwen‑MT

    Qwen‑MT 是阿里巴巴云开发的旗舰翻译模型,支持 92 种语言、多语种术语定制和领域适配,具备低延迟与高性价比,适合 AI 工具使用者进行机器翻译应用。
    04150
    大模型最近收录AI# 多语言机器翻译模型
    KAT‑V1

    KAT‑V1

    KAT‑V1 是 KwaiPilot 团队开源的 40B 大语言模型,具备“自动思考”机制,可动态切换链式思维与直接回答模式,显著降低推理浪费,适合 AI 工具使用者提升效率与响应速度。
    04690
    大模型开源工具与社区# AI编程工具# AI问答系统
    Seed GR‑3

    Seed GR‑3

    Seed GR‑3 是字节跳动 Seed 团队发布的大规模视觉‑语言‑行动(VLA)模型,支持机器人长时任务、复杂物体操作与指令理解,适用于 AI 工具使用者与机器人应用场景。
    04330
    大模型最近收录AI# 多模态机器人模型
    加载更多
    AI大学堂
    AI工具导航
    XD导航,是一个导航分类平台,为广大用户推荐各行业优秀的网址,APP,软件等,更加迎合用户,精细化,职业化,专业化,让不同小众化用户能有更好的用户体验,同时XD导航也是一个浏览器主页,提供了不同主流搜索引擎入口,和官网首页链接入口导航,整理分类了各网址、APP/资源、书籍等,提升效能,一键必达,还有AI技术运用,资讯分享等,欢迎您使用。

    友链申请隐私政策广告合作关于我们免责声明

    扫码加QQ群AI工具导航
    扫码加QQ群
    Copyright © 2026 AI工具导航 滇ICP备2023005905号-3 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件书籍
    热门AI工具搜索
    TraeAI大学堂星辰Agent问小白绘蛙讯飞文书有言AI