大模型

共 199 篇网址

汇聚全球领先的大模型（LLM）AI 工具，涵盖自然语言处理、图像生成、代码编写、智能问答等核心应用。AI工具导航平台收录国内外优质的大模型应用与开源项目，助力开发者、研究者和企业高效构建智能系统。无论是文本生成、语义理解，还是多模态交互，这里都能找到适合的大模型 AI 解决方案。

AI商业 AI常用工具 AI教育 AI服装设计 AI热门产品 AI生活助理 SEO优化与推广 SEO工具专业自媒体交互设计休闲娱乐兴趣爱好内容创作内容管理与维护写作助手创业者与企业创意设计前端开发办公提效动漫视频医疗健康后端开发国内新闻图文图片处理图片素材在线办公在线工具在线影视平台在线课程在线购物地区论坛地图导航域名/主机/CDN 外语学习大模型娱乐游戏学习学习与教育学术交流学术资源学科领域工具建站/开源系统影视娱乐思维导图提示词教学资源教育技术数据数据分析数据库文学娱乐旅游攻略景点介绍智能对话服务器管理游戏娱乐界面设计社交娱乐社区论坛科技科技资讯绘画平台编程工具编程教程网络监测美食餐饮营销推广虚拟形象行业社区视频制作语言翻译财经财经新闻资源分享音乐播放平台音频合成社交媒体账号合租趣站知识科普大模型 API AI工具下载应用场景功能类型开发工具平台与服务用户角色技术栈使用难易度支持与资源最近收录AI 精选AI 集成开发环境（IDE）免费AI工具

排序

发布更新浏览点赞

Veo 2

Google DeepMind推出的新一代AI 视频生成模型。

04960

大模型最近收录AI # AI视频生成模型 # 高分辨率

Segment Anything

Segment Anything | Meta AI

04940

大模型 # AI图像分割 # AI图像识别 # 大型语言模型（LLMs）

Seedance 1.0

字节跳动旗下火山引擎推出的旗舰视频生成基础模型，支持图像转视频、文本转视频，具备多镜头无缝拼接、影视级运镜和高语义理解能力。本文深度剖析 Seedance 1.0 的功能、使用指南、技术亮点与应用场景，并配常见问题 FAQ，助力 AI 工具用户掌握这款创新模型。

04910

大模型最近收录AI # 图生视频 # 文生视频 # 视频生成模型

Gemini Robotics On‑Device

Gemini Robotics On‑Device 是 Google DeepMind 推出的本地运行 VLA（Vision‑Language‑Action）机器人模型，具备高通用性、高灵活性和低延迟响应，能在无互联网环境中执行复杂操作任务，并通过 SDK 支持快速定制化与开发者部署。

04890

API与SDK 制造业与工业 # 机器人模型

DreamActor‑H1

DreamActor-H1 是首款高保真人-商品演示视频生成模型，采用 Diffusion Transformer、3D 姿态引导与语义增强技术，在电商中实现真实手势交互与产品呈现。

04880

大模型开源工具与社区 # AI电商平台内容生成 # AI高保真视频生成 # 视频生成模型

Google AI Studio

Google 推出的一款基于浏览器的集成开发环境（IDE），旨在帮助开发者、研究人员和企业用户快速构建、测试和部署基于 Gemini 多模态大模型的生成式 AI 应用。

04860

大模型教育与学习 # AI内容生成 # ‎Gemini

Claude 4

Anthropic 于 2025 年 5 月 22 日发布的新一代人工智能模型，包含两个变体：Claude Opus 4 和 Claude Sonnet 4。

04850

API与SDK 大模型 # AI代码优化 # AI代码生成 # AI编码助手

DeepSeek-R1-0528

DeepSeek 于 2025 年 5 月 29 日发布的开源大语言模型（LLM）更新版本，基于其先前的 R1 模型。

04840

大模型最近收录AI # 大模型

当贝AI

一款免登录、无下载、无广告的全场景 AI 智能助手平台。

04790

大模型教育与学习 # AI个人知识库 # AI大模型聚合 # AI指令编辑

TrackVLA

银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型（FSD）。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力，能实现从视觉感知到动作输出的全链路闭环。

04770

医疗与健康大模型 # 大模型 # 导航大模型

DMind

DMind 提供了一系列AI工具和模型，包括DMind-1和DMind-1-mini等大型语言模型（LLMs），专为区块链、去中心化金融（DeFi）、智能合约和链上数据分析等任务设计。

04750

大模型开源工具与社区 # Web3 LLM # 区块链开发 # 大型语言模型（LLMs）

PartCrafter

PartCrafter ——首个支持从单张 RGB 图像生成结构化 3D 模型的 AI 工具。

04710

大模型教育与学习 # 3D生成模型 # AI 3D打印原型设计 # AI虚拟现实模型搭建

DeepEyes

DeepEyes是一款由小红书与西安交通大学联合研发的多模态...

04710

API与SDK 医疗与健康 # 多模态大模型 # 多模态推理 # 用图思考

MoviiGen 1.1

ZulutionAI 推出的先进文本生成视频（Text-to-Video, T2V）模型。

04700

大模型教育与学习 # AI电影制作 # AI美学视频生成 # AI视频生成工具

Time‑R1

一个由学者提出、面向大型语言模型（LLM）的时序推理框架，通过强化学习精炼生成的小模型（≈3 B 参数），具备对“历史时间理解”、“未来事件预测”及“创造性时间想象”的能力，推理性能优于体量大 200 倍以上的模型。

04670

大模型教育与学习 # AI内容创作

EVI 3

一款基于共情大语言模型（eLLM）技术的语音语言模型，能够同时处理文本和语音输入，生成自然、富有表现力的语音响应。

04670

医疗与健康大模型 # AI 语音交互体验 # 共情大语言模型（eLLM）# 语音语言模型

MirageLSD

MirageLSD 是 Decart 推出的首个实时流式扩散 AI 视频模型，支持无延迟、实时且可无限生成的视频流变形，适用于直播、视频通话和游戏等场景。

04660

大模型最近收录AI # AI内容创作 # AI游戏画面风格强化 # 流式扩散视频模型

HumanOmniV2

全面解析 HumanOmniV2——多模态推理大模型，聚焦上下文理解与人类意图识别，兼具视觉、语音与逻辑评估能力，助力 AI 工具使用者构建更智能的人机交互系统。

04620

大模型最近收录AI # 多模态推理模型

Seed1.6

Seed1.6 是字节跳动火山引擎最新推出的多模态大模型系列，支持256K超长上下文、多模态理解、深度思考与 GUI 操作，拥有“全能版”、“思考版”与“极速版”等多种配置，性能、响应速度和成本都实现显著突破。

04620

API与SDK 大模型 # AI内容创作 # AI编程助手 # 大语言模型

Mureka V7

Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型，基于 MusiCoT Chain‑of‑Musical‑Thought 技术，实现结构化、真实感极强的旋律和人声效果，适合 AI 工具使用者快速制作高质量原创音乐。

04600

大模型最近收录AI # AI音乐创作工具 # AI音乐模型

Anthropic

Anthropic 是 AI 安全与创新的领导者，其旗舰产品 Claude 提供 cutting-edge 性能和安全性，适用于个人、企业和研究人员。

04600

API与SDK 大模型 # 大型语言模型（LLM）

Kwai Keye‑VL

Kwai Keye‑VL 是快手推出的 8 B 参数多模态大语言模型，聚焦动态短视频理解与视觉推理，支持图文与视频输入。本文深入分析其架构、性能、使用指南与 FAQ，助 AI 用户快速掌握。

04590

大模型最近收录AI # AI视频内容摘要 # AI视频问答 # 多模态大型模型

WorldVLA

WorldVLA 是阿里巴巴 DAMO Academy 推出的多模态机器人智能框架，结合视觉、语言与动作，支持输入图像+文本生成动作，同时预测动作后的未来图像状态，适合 AI 工具使用者进行机器人控制与仿真。

04580

大模型最近收录AI # 动作生成 # 多模态编码器 # 未来场景预测

Higgs Audio V2

Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型，基于 1000 万小时语音数据训练，支持多说话人对话、情感语音、多语言语音生成，适合 AI 工具使用者构建语音 Agent 和音频应用。

04540

大模型开源工具与社区 # AI情感语音合成 # AI语音克隆 # 音频生成与理解基础模型

LLaDA-V

一款由中国人民大学高瓴人工智能学院与蚂蚁集团联合研发的全新多模态大语言模型。

04530

大模型最近收录AI # 多模态大模型 # 多模态对话 # 扩散架构

AnimaTensor

AnimaTensor 是一个专为动漫风格设计的开源 SDXL 模型，由 Animagine XL 4.0-Zero 微调而成，训练于 840 万张 Danbooru 图像，支持 V‑prediction、Zero-terminal SNR 和高分辨率生成，适合内容创作者快速制作高质量动漫艺术作品。

04480

大模型最近收录AI # Stable Diffusion XL动漫模型微调 # stable diffusion 模型 # 模型下载

Voxtral

Voxtral 是由 Mistral 推出的首款开源语音理解模型系列，支持高精度转录、语音问答、多语言识别与函数调用，提供 24B 和 3B 两种参数规模，适合 AI 工具使用者本地部署或云端集成。

04470

大模型开源工具与社区 # AI摘要生成 # AI语音转录 # AI语音问答

Hunyuan3D‑PolyGen

Hunyuan3D‑PolyGen 是腾讯混元3D系列的最新旗舰级模型，以生产级“Art‑Grade”网格拓扑为目标，支持三角/四边形网格、高压缩编码与自动重拓扑，能减少 70% 制作时间、提升 35% 拓扑整洁度，是游戏开发者与 3D 艺术师的创作助力。

04460

API与SDK 大模型 # AI 3D艺术设计 # AI游戏开发

Skywork‑SWE‑32B

Skywork‑SWE‑32B 是 Skywork AI 发布的开源代码代理模型，专为软件工程任务优化，具备 38% pass@1 基础准确率，测试时增强可提升到 47%，支持 32K 上下文和多种量化格式，适合 AI 工具使用者和开发者快速集成。

04450

大模型开源工具与社区 # 代码代理大型语言模型

Redirecting…

Kimi‑Dev 是 MoonshotAI 推出的开源编码 LLM，采用强化学习方案 BugFixer 与 TestWriter 双模架构，支持自动补丁生成、测试编写，SWE‑bench 验证准确率达 60.4%，适合开发者和研究者部署使用。

04440

免费AI工具大模型 # 编码大语言模型

AnimaX

AnimaX 是阿里巴巴 DAMO Academy 推出的最新文本驱动 3D 动画框架，利用视频扩散与骨架控制让静态模型动起来，适合 AI 工具使用者构建高质量 3D 动画。

04420

大模型开源工具与社区 # 3D模型生成动画 # AI 3D艺术制作 # AI虚拟人物交互

HunyuanVideo-Avatar

腾讯混元团队联合腾讯音乐天琴实验室（MuseV）于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。

04390

大模型最近收录AI # AI数字人 # AI短视频生成工具 # AI虚拟主播

AlphaGenome

AlphaGenome 是 Google DeepMind 推出的革命性 AI 基因组模型，可处理高达一百万碱基对的 DNA 序列，在单碱基分辨率下预测上千种分子功能特征，并通过对比分析突变效应助力疾病与生物学研究，将“基因暗物质”转化为可解释信息。

04340

API与SDK 大模型 # AI基因组模型

MMaDA

实现跨文本推理、多模态理解和文本到图像生成等多个领域的卓越性能。

04340

大模型开源工具与社区 # AI多模态理解 # AI文本推理 # 文生图

SongGeneration

SongGeneration 是腾讯AILab开发的开源歌曲生成模型，基于 LeVo 架构与音乐编码器，可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲，支持中文与英文，适合 AI 工具使用者快速落地音乐创作。

04320

大模型开源工具与社区 # AI音乐生成 # 多语言支持

NativeMind

NativeMind 是一款完全本地运行、开源隐私保护的浏览器 AI 插件，通过集成 Ollama 在浏览器端使用强大开源大模型，支持多模型切换、网页摘要、跨标签聊天、隐私搜索与文本润色，适合注重数据安全的 AI 工具使用者。

04290

大模型最近收录AI # AI写作辅助 # AI文本润色 # AI浏览器插件

4D‑LRM

4D‑LRM 是一款由 Ziqiao Ma 等人提出的 Transformer 驱动大规模时空重建模型，基于 4D 高斯混合表示，实现从稀疏视角与时间点输入，到任意视角与任意时间点的连续动态重建。本文详解其架构、性能、使用指南与常见问题，帮助 AI 工具用户掌握 4D‑LRM。

04250

大模型最近收录AI # 4D时空重建模型 # AI 4D场景生成 # AI影视制作

Confucius3-Math

Confucius3-Math 是由网易有道开源的 14B 参数数学专用大模型，通过强化学习优化，支持在消费级 GPU 上高性能推理，在高考、K‑12 等多项数学基准中排名领先，是教育 AI 工具开发者的首选模型。

04250

大模型开源工具与社区 # 数学模型

Dolphin

ByteDance开发的多模态文档图像解析模型，处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计。

04250

大模型开源工具与社区 # 多模态处理 # 数据提取

Chatterbox

Resemble AI 开发并于 2025 年开源发布的高性能文本转语音（TTS）模型。

04220

大模型开源工具与社区 # AI情感陪伴 # AI智能助手 # AI语音克隆

Kling‑Foley

Kling‑Foley 是快手可灵AI推出的首个多模态视频到音频生成模型，支持基于视频（可附文本提示）生成高保真、语义对齐、帧级同步的立体声音效与背景音乐，适用于创作者、游戏开发者与视频制作人，帮助自动补齐“所见即所听”。

04200

大模型最近收录AI # AI动画视频 # AI教育视频 # AI短视频制作

MiniMax‑M1

MiniMax‑M1 是全球首个开放参数混合注意力大模型，拥有 4.56 e11 参数、1 百万 token 上下文长度和高效强化学习训练机制，擅长数学、编程、长上下文理解和复杂推理任务。

04190

免费AI工具大模型 # 大模型

Kyutai TTS

Kyutai TTS 是 Kyutai 团队首个实时流式文本转语音模型，支持英语和法语，具备声线克隆、超低延迟（约220ms）、长音频稳定输出与字级时间戳，可部署本地化、适配 LLM，对 AI 工具使用者极具吸引力。

04160

大模型开源工具与社区 # AI声线克隆 # 实时流式文本转语音模型 # 文本转语音

Aurora

微软研究院于 2025 年发布的地球系统基础模型（Foundation Model），旨在通过人工智能技术实现更快速、精准且高效的天气和环境预测。

04150

大模型数据分析与预测 # AI天气预测

Qwen VLo

一文掌握 Qwen VLo——阿里巴巴发布的多模态生成与理解模型，从核心能力、使用路径到实战案例和常见问题，详解其如何帮助 AI 工具使用者提升图像生成与编辑效率。

04100

大模型最近收录AI # 多模态大语言模型 # 文生图

EXAONE 4.0

EXAONE 4.0 是 LG AI Research 发布的混合智能大模型，集通用理解与多步推理于一体，提供 32B 高性能与 1.2B 本地部署版本，支持工具调用与多语言，是 AI 工具使用者进行开发集成的核心资源。

04080

大模型开源工具与社区 # 多语言支持 # 混合模型

RoboBrain2.0

RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”，融合视觉、语言与交互推理，支持 7B/32B 模型，对各种实体任务进行空间、时间规划与闭环反馈，适合 AI 工具使用者快速集成机器人认知能力。

04040

大模型开源工具与社区 # 机器人视觉-语言大模型

SignGemma

Google DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型，旨在打破听障人士在沟通中的障碍。

04010

医疗与健康大模型 # 多模态AI模型 # 手语翻译模型

OpenReasoning‑Nemotron

OpenReasoning‑Nemotron 是一个开源推理增强 LLM 系列，采用 DeepSeek‑R1 蒸馏技术，在数学、科学与代码问答任务中实现 SOTA 性能，支持 GenSelect 多路径生成，适合 AI 工具使用者加强推理能力。

03930

大模型最近收录AI # 小体量推理模型

GLM‑4.1V‑Thinking

GLM‑4.1V‑Thinking 是清华大学与知谱 AI 联合开发的首个开放源多模态推理模型，融合 RLCS（课程采样强化学习）和 CoT（链式思维）训练，实现 10B 级参数在 STEM、长文理解、视频分析等28个任务上对标 72B 模型甚至 GPT‑4o，适合 AI 工具使用者构建高性能视觉推理系统。

03900

大模型最近收录AI # 源码视觉语言模型 # 视觉编码器 # 语言解码器

AI大学堂