大模型

共 199 篇网址

汇聚全球领先的大模型（LLM）AI 工具，涵盖自然语言处理、图像生成、代码编写、智能问答等核心应用。AI工具导航平台收录国内外优质的大模型应用与开源项目，助力开发者、研究者和企业高效构建智能系统。无论是文本生成、语义理解，还是多模态交互，这里都能找到适合的大模型 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

排序

发布更新浏览点赞

LongCat-Video-Avatar

美团 LongCat 团队开源的音频驱动长视频角色动画生成模型。

01520

大模型开源工具与社区 # AI长视频生成 # 视频扩展 # 音频-文本-图像生成视频

Live Avatar

一个面向 AI 工具使用者的先进实时音频驱动交互式头像生成系统。

01600

大模型最近收录AI # AI视频生成 # AI视频通话

Seedance 1.5 Pro

字节跳动 Seed 团队最新发布的音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持，为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。

01320

内容创作大模型 # AI情感短片视频生成 # AI视频生成 # 音视频联合生成模型

万相2.6

阿里通义万相最新发布的视频生成 AI 模型，支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步，为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。

01580

大模型最近收录AI # AI数字人 # AI虚拟角色 # AI视频生成模型

GWM-1

GWM-1 是由 Runway 发布的首个通用世界模型（General World Model），基于 Gen-4.5 架构，通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支，适用于交互式世界构建、机器人训练与数字人生成等领域。

01230

大模型最近收录AI # 世界模型

GPT-5.2

GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日发布的最新大模型版本，专为专业知识工作、复杂多步骤任务以及更高效的生成式智能体验打造，在生成电子表格、演示文稿、代码、长文本理解和工具调用等方面显著领先前代，适合企业级应用与生产力提升。

01360

大模型最近收录AI # chatgpt5.2

Qwen3-Omni-Flash

Qwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态（omni-modal）大模型，支持文本、图像、音频和视频等多种输入，并能实时流式输出文本与自然语音，具备高效多模态理解与交互能力，覆盖 119 种文本语言及多语言语音交互，实现真正无缝实时 AI 体验。

01680

内容创作大模型 # AI语音助手 # 多语言语音输出

可灵O1

可灵O1 是由可灵AI 发布的全球首款统一多模态视频生成大模型，支持图片、视频与文字混合输入，实现从文生图／文生视频／图生视频到视频编辑的一站式创作流程，适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。

01540

大模型最近收录AI # AI图像生成 # AI视频创作工具 # AI视频创作平台

Vidi2

Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型，支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成，是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。

01090

大模型开源工具与社区 # AI长视频处理

Depth Anything 3

Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型，可从任意数量与任意视角的图像／视频输入中恢复空间一致的 3D 几何结构，包括深度图、相机位姿、三维点云与新视图合成，非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。

01760

内容创作大模型 # AI 3D艺术

DeepSeek-Math-V2

DeepSeek-Math-V2 是一个开源数学推理模型，通过“生成 + 自验证 (generate-and-verify)”机制，实现了 IMO 金牌水平的定理证明与数学竞赛能力，非常适合研究者、学生、开发者与数学爱好者用于复杂数学问题求解、证明辅助与教育 /学习。

01310

大模型开源工具与社区 # AI数学模型

Grok4.1

Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM)，主打更快的响应、更低的“幻觉率”、更高的情感理解与代码／多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。

03110

大模型最近收录AI

Gemini 3

Gemini 3 是由 Google DeepMind 推出的最新 AI 模型，融合强大推理、多模态理解与编码/工具调用能力，为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手，适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。

02440

内容创作创意设计 # AI开发 # AI程序员

Z-Image

Z-Image 是阿里通义 (Tongyi MAI) 发布的高效 6 B 图像生成与编辑基础模型，支持高逼真度渲染、中英双语文本、低资源运行与快速推理，为创作者、设计师和开发者提供了兼顾质量与效率的开放图像生成方案。

01490

大模型开源工具与社区 # AI图像生成模型 # AI图像编辑模型 # 文生图

FLUX.2

FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型，支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性，适合设计师、营销、产品可视化和创意团队进行专业级图像创作。

01300

内容创作大模型 # AI图像模型 # AI图像编辑 # 文生图像

睿标AI—标书智写专家

告别千篇一律！

02410

AI商业 AI常用工具

Higgs Audio V2

Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型，基于 1000 万小时语音数据训练，支持多说话人对话、情感语音、多语言语音生成，适合 AI 工具使用者构建语音 Agent 和音频应用。

04030

大模型开源工具与社区 # AI情感语音合成 # AI语音克隆 # 音频生成与理解基础模型

Step 3

Step 3 是 StepFun 发布的一款多模态大语言模型，具备文本、图像与视频理解生成能力，将于 2025 年底开源，适合 AI 工具使用者构建多模态 Agent 与应用。

07590

大模型最近收录AI # 多模态Agent # 通用模型

Agentar‑Fin‑R1

Agentar‑Fin‑R1 是一系列基于 Qwen3 构建的金融专业大语言模型（8B 与 32B），专为金融推理、安全合规与高效训练优化，适合 AI 工具使用者部署金融智能解决方案。

06840

大模型最近收录AI # 金融大模型

Qwen‑MT

Qwen‑MT 是阿里巴巴云开发的旗舰翻译模型，支持 92 种语言、多语种术语定制和领域适配，具备低延迟与高性价比，适合 AI 工具使用者进行机器翻译应用。

04880

大模型最近收录AI # 多语言机器翻译模型

KAT‑V1

KAT‑V1 是 KwaiPilot 团队开源的 40B 大语言模型，具备“自动思考”机制，可动态切换链式思维与直接回答模式，显著降低推理浪费，适合 AI 工具使用者提升效率与响应速度。

05390

大模型开源工具与社区 # AI编程工具 # AI问答系统

Seed GR‑3

Seed GR‑3 是字节跳动 Seed 团队发布的大规模视觉‑语言‑行动（VLA）模型，支持机器人长时任务、复杂物体操作与指令理解，适用于 AI 工具使用者与机器人应用场景。

04870

大模型最近收录AI # 多模态机器人模型

Mureka V7

Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型，基于 MusiCoT Chain‑of‑Musical‑Thought 技术，实现结构化、真实感极强的旋律和人声效果，适合 AI 工具使用者快速制作高质量原创音乐。

03900

大模型最近收录AI # AI音乐创作工具 # AI音乐模型

Seed‑X

Seed‑X 是 ByteDance Seed 团队开源的 7B 多语言翻译 LLM，支持 28 种语言双向翻译，性能媲美 Gemini‑2.5、GPT‑4、DeepSeek‑R1，适合希望构建本地翻译系统的 AI 工具使用者。

05620

大模型开源工具与社区 # 多语言翻译模型

OpenReasoning‑Nemotron

OpenReasoning‑Nemotron 是一个开源推理增强 LLM 系列，采用 DeepSeek‑R1 蒸馏技术，在数学、科学与代码问答任务中实现 SOTA 性能，支持 GenSelect 多路径生成，适合 AI 工具使用者加强推理能力。

03280

大模型最近收录AI # 小体量推理模型

MirageLSD

MirageLSD 是 Decart 推出的首个实时流式扩散 AI 视频模型，支持无延迟、实时且可无限生成的视频流变形，适用于直播、视频通话和游戏等场景。

04090

大模型最近收录AI # AI内容创作 # AI游戏画面风格强化 # 流式扩散视频模型

Goedel‑Prover‑V2

Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列，通过专家迭代、自我修正与模型平均三项创新，实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA，适合 AI 工具使用者用于数学推理和 Agent 集成。

02810

大模型开源工具与社区 # 定理证明模型

Voxtral

Voxtral 是由 Mistral 推出的首款开源语音理解模型系列，支持高精度转录、语音问答、多语言识别与函数调用，提供 24B 和 3B 两种参数规模，适合 AI 工具使用者本地部署或云端集成。

03890

大模型开源工具与社区 # AI摘要生成 # AI语音转录 # AI语音问答

EXAONE 4.0

EXAONE 4.0 是 LG AI Research 发布的混合智能大模型，集通用理解与多步推理于一体，提供 32B 高性能与 1.2B 本地部署版本，支持工具调用与多语言，是 AI 工具使用者进行开发集成的核心资源。

03230

大模型开源工具与社区 # 多语言支持 # 混合模型

RoboBrain2.0

RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”，融合视觉、语言与交互推理，支持 7B/32B 模型，对各种实体任务进行空间、时间规划与闭环反馈，适合 AI 工具使用者快速集成机器人认知能力。

03380

大模型开源工具与社区 # 机器人视觉-语言大模型

Kimi K2

Kimi K2 是 Moonshot AI 发布的开源 trillion‐parameter 混合专家大语言模型，支持代码生成、长上下文处理、多 Agent 工具调用，被评为 SOTA 开源模型，适合 AI 工具使用者部署与集成。

04470

大模型开源工具与社区 # AI Agent # AI代码生成 # AI数学推理

GLM‑Experimental

GLM‑Experimental 是 Zhipu AI 在 chat.z.ai 平台推出的新一代 GLM 模型，具备结构化推理和 PPT 生成能力，适用于内容创作、代码编写与智能协作工作流。

04340

大模型教育与学习 # AI PPT制作 # AI职场报告编写 # GLM 模型

Grok 4

Grok 4 是 xAI 推出的最新大语言模型，具备实时网络搜索、原生工具调用、多 Agent 推理与多模态能力，适合开发者与 AI 工具使用者用于复杂推理与多场景部署。

02580

API与SDK 大模型 # AI实时搜索 # 多Agent架构 # 强化学习

Skywork‑R1V 3.0

Skywork‑R1V 3.0 是一款开源的多模态视觉‑语言推理模型，采用视觉 CoT、强化学习优化，在 MMMU、MathVista 等多项测试中实现开源最佳性能，适合 AI 工具使用者部署与实验。

04560

大模型开源工具与社区 # AI Agent # 多模态模型 # 视觉模型

HumanOmniV2

全面解析 HumanOmniV2——多模态推理大模型，聚焦上下文理解与人类意图识别，兼具视觉、语音与逻辑评估能力，助力 AI 工具使用者构建更智能的人机交互系统。

04050

大模型最近收录AI # 多模态推理模型

MetaStone‑S1

深入剖析开源反思型生成模型 MetaStone‑S1：其架构、Test‑Time Scaling、性能基准、实际部署与未来发展，面向 AI 工具使用者的全面指南。

04280

大模型开源工具与社区 # AI代码生成 # AI推理研究 # 反思型生成模型

Hunyuan3D‑PolyGen

Hunyuan3D‑PolyGen 是腾讯混元3D系列的最新旗舰级模型，以生产级“Art‑Grade”网格拓扑为目标，支持三角/四边形网格、高压缩编码与自动重拓扑，能减少 70% 制作时间、提升 35% 拓扑整洁度，是游戏开发者与 3D 艺术师的创作助力。

03790

API与SDK 大模型 # AI 3D艺术设计 # AI游戏开发

NativeMind

NativeMind 是一款完全本地运行、开源隐私保护的浏览器 AI 插件，通过集成 Ollama 在浏览器端使用强大开源大模型，支持多模型切换、网页摘要、跨标签聊天、隐私搜索与文本润色，适合注重数据安全的 AI 工具使用者。

03590

大模型最近收录AI # AI写作辅助 # AI文本润色 # AI浏览器插件

MOSS‑TTSD

MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型，通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成，适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。

03220

大模型最近收录AI # AI客服 # AI播客 # AI语音生成框架

DeepSeek R1T2

DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM，兼顾高推理能力、低延迟与开放开源，适合 AI 工具使用者在本地部署高效问答与生成任务。

02940

大模型开源工具与社区 # AI问答机器人 # 混合式大语言模型

Kyutai TTS

Kyutai TTS 是 Kyutai 团队首个实时流式文本转语音模型，支持英语和法语，具备声线克隆、超低延迟（约220ms）、长音频稳定输出与字级时间戳，可部署本地化、适配 LLM，对 AI 工具使用者极具吸引力。

03650

大模型开源工具与社区 # AI声线克隆 # 实时流式文本转语音模型 # 文本转语音

Step‑Audio‑AQAA

Step‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型，支持音频问答任务，从原始音频直接生成自然语音回答，具备情感、语速、方言控制，高保真响应，非常适合 AI 工具使用者构建交互式音频智能系统。

03420

大模型最近收录AI # AI音色控制 # 双重编码器 # 端到端处理

GLM‑4.1V‑Thinking

GLM‑4.1V‑Thinking 是清华大学与知谱 AI 联合开发的首个开放源多模态推理模型，融合 RLCS（课程采样强化学习）和 CoT（链式思维）训练，实现 10B 级参数在 STEM、长文理解、视频分析等28个任务上对标 72B 模型甚至 GPT‑4o，适合 AI 工具使用者构建高性能视觉推理系统。

03370

大模型最近收录AI # 源码视觉语言模型 # 视觉编码器 # 语言解码器

XVerse

XVerse 是字节跳动发布的开源多主体图像生成模型，基于 DiT 调制实现对多个人物身份和语义属性（姿态、风格、光照）的独立控制，适合 AI 工具使用者生成复杂定制化场景。

02420

大模型最近收录AI # 多主体图像生成模型

Qwen‑TTS

Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型，支持标准普通话、三种中文方言（北京话、上海话、四川话）及七种中英双语音色，通过流式输出实现快速、高质量语音生成。

04620

大模型最近收录AI # AI客服 # AI语音助手 # 文本转语音模型

Ovis‑U1

Ovis‑U1 是阿里巴巴 AIDC‑AI 推出的 30 亿参数统一多模态模型，集图像理解、文本生成、图像生成与编辑能力于一体，适合 AI 工具使用者快速构建多功能视觉交互应用。

03110

大模型计算机视觉 # 多模态模型

AnimaX

AnimaX 是阿里巴巴 DAMO Academy 推出的最新文本驱动 3D 动画框架，利用视频扩散与骨架控制让静态模型动起来，适合 AI 工具使用者构建高质量 3D 动画。

03790

大模型开源工具与社区 # 3D模型生成动画 # AI 3D艺术制作 # AI虚拟人物交互

WorldVLA

WorldVLA 是阿里巴巴 DAMO Academy 推出的多模态机器人智能框架，结合视觉、语言与动作，支持输入图像+文本生成动作，同时预测动作后的未来图像状态，适合 AI 工具使用者进行机器人控制与仿真。

03870

大模型最近收录AI # 动作生成 # 多模态编码器 # 未来场景预测

Qwen VLo

一文掌握 Qwen VLo——阿里巴巴发布的多模态生成与理解模型，从核心能力、使用路径到实战案例和常见问题，详解其如何帮助 AI 工具使用者提升图像生成与编辑效率。

03590

大模型最近收录AI # 多模态大语言模型 # 文生图

4D‑LRM

4D‑LRM 是一款由 Ziqiao Ma 等人提出的 Transformer 驱动大规模时空重建模型，基于 4D 高斯混合表示，实现从稀疏视角与时间点输入，到任意视角与任意时间点的连续动态重建。本文详解其架构、性能、使用指南与常见问题，帮助 AI 工具用户掌握 4D‑LRM。

03710

大模型最近收录AI # 4D时空重建模型 # AI 4D场景生成 # AI影视制作

AI大学堂