GLM‑ExperimentalGLM‑Experimental 是 Zhipu AI 在 chat.z.ai 平台推出的新一代 GLM 模型,具备结构化推理和 PPT 生成能力,适用于内容创作、代码编写与智能协作工作流。04340大模型教育与学习# AI PPT制作# AI职场报告编写# GLM 模型
MetaStone‑S1深入剖析开源反思型生成模型 MetaStone‑S1:其架构、Test‑Time Scaling、性能基准、实际部署与未来发展,面向 AI 工具使用者的全面指南。04280大模型开源工具与社区# AI代码生成# AI推理研究# 反思型生成模型
Google AI StudioGoogle 推出的一款基于浏览器的集成开发环境(IDE),旨在帮助开发者、研究人员和企业用户快速构建、测试和部署基于 Gemini 多模态大模型的生成式 AI 应用。04260大模型教育与学习# AI内容生成# Gemini
Gemini Robotics On‑DeviceGemini Robotics On‑Device 是 Google DeepMind 推出的本地运行 VLA(Vision‑Language‑Action)机器人模型,具备高通用性、高灵活性和低延迟响应,能在无互联网环境中执行复杂操作任务,并通过 SDK 支持快速定制化与开发者部署。04240API与SDK制造业与工业# 机器人模型
EVI 3一款基于共情大语言模型(eLLM)技术的语音语言模型,能够同时处理文本和语音输入,生成自然、富有表现力的语音响应。04190医疗与健康大模型# AI 语音交互体验# 共情大语言模型(eLLM)# 语音语言模型
DMindDMind 提供了一系列AI工具和模型,包括DMind-1和DMind-1-mini等大型语言模型(LLMs),专为区块链、去中心化金融(DeFi)、智能合约和链上数据分析等任务设计。04180大模型开源工具与社区# Web3 LLM# 区块链开发# 大型语言模型(LLMs)
Claude 4Anthropic 于 2025 年 5 月 22 日发布的新一代人工智能模型,包含两个变体:Claude Opus 4 和 Claude Sonnet 4。04160API与SDK大模型# AI代码优化# AI代码生成# AI编码助手
DreamActor‑H1DreamActor-H1 是首款高保真人-商品演示视频生成模型,采用 Diffusion Transformer、3D 姿态引导与语义增强技术,在电商中实现真实手势交互与产品呈现。04100大模型开源工具与社区# AI电商平台内容生成# AI高保真视频生成# 视频生成模型
MirageLSDMirageLSD 是 Decart 推出的首个实时流式扩散 AI 视频模型,支持无延迟、实时且可无限生成的视频流变形,适用于直播、视频通话和游戏等场景。04090大模型最近收录AI# AI内容创作# AI游戏画面风格强化# 流式扩散视频模型
Seedance 1.0字节跳动旗下火山引擎推出的旗舰 视频生成基础模型,支持图像转视频、文本转视频,具备多镜头无缝拼接、影视级运镜和高语义理解能力。本文深度剖析 Seedance 1.0 的功能、使用指南、技术亮点与应用场景,并配常见问题 FAQ,助力 AI 工具用户掌握这款创新模型。04080大模型最近收录AI# 图生视频# 文生视频# 视频生成模型
TrackVLA银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型(FSD)。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。04070医疗与健康大模型# 大模型# 导航大模型
HumanOmniV2全面解析 HumanOmniV2——多模态推理大模型,聚焦上下文理解与人类意图识别,兼具视觉、语音与逻辑评估能力,助力 AI 工具使用者构建更智能的人机交互系统。04050大模型最近收录AI# 多模态推理模型
Kwai Keye‑VLKwai Keye‑VL 是快手推出的 8 B 参数多模态大语言模型,聚焦动态短视频理解与视觉推理,支持图文与视频输入。本文深入分析其架构、性能、使用指南与 FAQ,助 AI 用户快速掌握。04040大模型最近收录AI# AI视频内容摘要# AI视频问答# 多模态大型模型
Higgs Audio V2Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。04030大模型开源工具与社区# AI情感语音合成# AI语音克隆# 音频生成与理解基础模型
Redirecting…Kimi‑Dev 是 MoonshotAI 推出的开源 编码 LLM,采用强化学习方案 BugFixer 与 TestWriter 双模架构,支持自动补丁生成、测试编写,SWE‑bench 验证准确率达 60.4%,适合开发者和研究者部署使用。03920免费AI工具大模型# 编码大语言模型
AnthropicAnthropic 是 AI 安全与创新的领导者,其旗舰产品 Claude 提供 cutting-edge 性能和安全性,适用于个人、企业和研究人员。03910API与SDK大模型# 大型语言模型(LLM)
Mureka V7Mureka V7 是 Skywork AI 发布的最新 AI 音乐生成模型,基于 MusiCoT Chain‑of‑Musical‑Thought 技术,实现结构化、真实感极强的旋律和人声效果,适合 AI 工具使用者快速制作高质量原创音乐。03900大模型最近收录AI# AI音乐创作工具# AI音乐模型
VoxtralVoxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。03890大模型开源工具与社区# AI摘要生成# AI语音转录# AI语音问答
HunyuanVideo-Avatar腾讯混元团队联合腾讯音乐天琴实验室(MuseV)于 2025 年 5 月 28 日发布并开源的语音驱动数字人模型。03890大模型最近收录AI# AI数字人# AI短视频生成工具# AI虚拟主播
WorldVLAWorldVLA 是阿里巴巴 DAMO Academy 推出的多模态机器人智能框架,结合视觉、语言与动作,支持输入图像+文本生成动作,同时预测动作后的未来图像状态,适合 AI 工具使用者进行机器人控制与仿真。03870大模型最近收录AI# 动作生成# 多模态编码器# 未来场景预测
PartCrafterPartCrafter ——首个支持从单张 RGB 图像生成结构化 3D 模型 的 AI 工具。03850大模型教育与学习# 3D生成模型# AI 3D打印原型设计# AI虚拟现实模型搭建
AnimaTensorAnimaTensor 是一个专为动漫风格设计的开源 SDXL 模型,由 Animagine XL 4.0-Zero 微调而成,训练于 840 万张 Danbooru 图像,支持 V‑prediction、Zero-terminal SNR 和高分辨率生成,适合内容创作者快速制作高质量动漫艺术作品。03840大模型最近收录AI# Stable Diffusion XL动漫模型微调# stable diffusion 模型# 模型下载
Hunyuan3D‑PolyGenHunyuan3D‑PolyGen 是腾讯混元3D系列的最新旗舰级模型,以生产级“Art‑Grade”网格拓扑为目标,支持三角/四边形网格、高压缩编码与自动重拓扑,能减少 70% 制作时间、提升 35% 拓扑整洁度,是游戏开发者与 3D 艺术师的创作助力。03790API与SDK大模型# AI 3D艺术设计# AI游戏开发
AnimaXAnimaX 是阿里巴巴 DAMO Academy 推出的最新文本驱动 3D 动画框架,利用视频扩散与骨架控制让静态模型动起来,适合 AI 工具使用者构建高质量 3D 动画。03790大模型开源工具与社区# 3D模型生成动画# AI 3D艺术制作# AI虚拟人物交互
Seed1.6Seed1.6 是字节跳动火山引擎最新推出的多模态大模型系列,支持256K超长上下文、多模态理解、深度思考与 GUI 操作,拥有“全能版”、“思考版”与“极速版”等多种配置,性能、响应速度和成本都实现显著突破。03790API与SDK大模型# AI内容创作# AI编程助手# 大语言模型
Skywork‑SWE‑32BSkywork‑SWE‑32B 是 Skywork AI 发布的开源代码代理模型,专为软件工程任务优化,具备 38% pass@1 基础准确率,测试时增强可提升到 47%,支持 32K 上下文和多种量化格式,适合 AI 工具使用者和开发者快速集成。03760大模型开源工具与社区# 代码代理大型语言模型
Time‑R1一个由学者提出、面向大型语言模型(LLM)的时序推理框架,通过强化学习精炼生成的小模型(≈3 B 参数),具备对“历史时间理解”、“未来事件预测”及“创造性时间想象”的能力,推理性能优于体量大 200 倍以上的模型。03740大模型教育与学习# AI内容创作
4D‑LRM4D‑LRM 是一款由 Ziqiao Ma 等人提出的 Transformer 驱动大规模时空重建模型,基于 4D 高斯混合表示,实现从稀疏视角与时间点输入,到任意视角与任意时间点的连续动态重建。本文详解其架构、性能、使用指南与常见问题,帮助 AI 工具用户掌握 4D‑LRM。03710大模型最近收录AI# 4D时空重建模型# AI 4D场景生成# AI影视制作
Kling‑FoleyKling‑Foley 是快手可灵AI推出的首个多模态视频到音频生成模型,支持基于视频(可附文本提示)生成高保真、语义对齐、帧级同步的立体声音效与背景音乐,适用于创作者、游戏开发者与视频制作人,帮助自动补齐“所见即所听”。03710大模型最近收录AI# AI动画视频# AI教育视频# AI短视频制作
Kyutai TTSKyutai TTS 是 Kyutai 团队首个实时流式文本转语音模型,支持英语和法语,具备声线克隆、超低延迟(约220ms)、长音频稳定输出与字级时间戳,可部署本地化、适配 LLM,对 AI 工具使用者极具吸引力。03650大模型开源工具与社区# AI声线克隆# 实时流式文本转语音模型# 文本转语音
Aurora微软研究院于 2025 年发布的地球系统基础模型(Foundation Model),旨在通过人工智能技术实现更快速、精准且高效的天气和环境预测。03640大模型数据分析与预测# AI天气预测
AlphaGenomeAlphaGenome 是 Google DeepMind 推出的革命性 AI 基因组模型,可处理高达一百万碱基对的 DNA 序列,在单碱基分辨率下预测上千种分子功能特征,并通过对比分析突变效应助力疾病与生物学研究,将“基因暗物质”转化为可解释信息。03630API与SDK大模型# AI基因组模型
Confucius3-MathConfucius3-Math 是由网易有道开源的 14B 参数数学专用大模型,通过强化学习优化,支持在消费级 GPU 上高性能推理,在高考、K‑12 等多项数学基准中排名领先,是教育 AI 工具开发者的首选模型。03630大模型开源工具与社区# 数学模型
NativeMindNativeMind 是一款完全本地运行、开源隐私保护的浏览器 AI 插件,通过集成 Ollama 在浏览器端使用强大开源大模型,支持多模型切换、网页摘要、跨标签聊天、隐私搜索与文本润色,适合注重数据安全的 AI 工具使用者。03590大模型最近收录AI# AI写作辅助# AI文本润色# AI浏览器插件
Qwen VLo一文掌握 Qwen VLo——阿里巴巴发布的多模态生成与理解模型,从核心能力、使用路径到实战案例和常见问题,详解其如何帮助 AI 工具使用者提升图像生成与编辑效率。03590大模型最近收录AI# 多模态大语言模型# 文生图
SongGenerationSongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲,支持中文与英文,适合 AI 工具使用者快速落地音乐创作。03520大模型开源工具与社区# AI音乐生成# 多语言支持
MiniMax‑M1MiniMax‑M1 是全球首个开放参数混合注意力大模型,拥有 4.56 e11 参数、1 百万 token 上下文长度和高效强化学习训练机制,擅长数学、编程、长上下文理解和复杂推理任务。03480免费AI工具大模型# 大模型
Step‑Audio‑AQAAStep‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型,支持音频问答任务,从原始音频直接生成自然语音回答,具备情感、语速、方言控制,高保真响应,非常适合 AI 工具使用者构建交互式音频智能系统。03420大模型最近收录AI# AI音色控制# 双重编码器# 端到端处理
混元‑A13B混元‑A13B 是腾讯混元团队开源的首个 13B 激活参数 MoE 混合推理模型,提供高效推理、超长上下文(256K tokens)、Agent 工具调用能力和推理模式切换。本文全面解析其架构、性能、部署优化、应用场景和 FAQ,帮助 AI 用户快速理解与落地。03400大模型最近收录AI# 256K 超长上下文窗口# Agent 任务生态
RoboBrain2.0RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”,融合视觉、语言与交互推理,支持 7B/32B 模型,对各种实体任务进行空间、时间规划与闭环反馈,适合 AI 工具使用者快速集成机器人认知能力。03380大模型开源工具与社区# 机器人视觉-语言大模型
GLM‑4.1V‑ThinkingGLM‑4.1V‑Thinking 是清华大学与知谱 AI 联合开发的首个开放源多模态推理模型,融合 RLCS(课程采样强化学习)和 CoT(链式思维)训练,实现 10B 级参数在 STEM、长文理解、视频分析等28个任务上对标 72B 模型甚至 GPT‑4o,适合 AI 工具使用者构建高性能视觉推理系统。03370大模型最近收录AI# 源码视觉语言模型# 视觉编码器# 语言解码器
SignGemmaGoogle DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。03330医疗与健康大模型# 多模态AI模型# 手语翻译模型