Kwai Keye‑VLKwai Keye‑VL 是快手推出的 8 B 参数多模态大语言模型,聚焦动态短视频理解与视觉推理,支持图文与视频输入。本文深入分析其架构、性能、使用指南与 FAQ,助 AI 用户快速掌握。04040大模型最近收录AI# AI视频内容摘要# AI视频问答# 多模态大型模型
AlphaGenomeAlphaGenome 是 Google DeepMind 推出的革命性 AI 基因组模型,可处理高达一百万碱基对的 DNA 序列,在单碱基分辨率下预测上千种分子功能特征,并通过对比分析突变效应助力疾病与生物学研究,将“基因暗物质”转化为可解释信息。03640API与SDK大模型# AI基因组模型
Seed1.6Seed1.6 是字节跳动火山引擎最新推出的多模态大模型系列,支持256K超长上下文、多模态理解、深度思考与 GUI 操作,拥有“全能版”、“思考版”与“极速版”等多种配置,性能、响应速度和成本都实现显著突破。03790API与SDK大模型# AI内容创作# AI编程助手# 大语言模型
AnimaTensorAnimaTensor 是一个专为动漫风格设计的开源 SDXL 模型,由 Animagine XL 4.0-Zero 微调而成,训练于 840 万张 Danbooru 图像,支持 V‑prediction、Zero-terminal SNR 和高分辨率生成,适合内容创作者快速制作高质量动漫艺术作品。03850大模型最近收录AI# Stable Diffusion XL动漫模型微调# stable diffusion 模型# 模型下载
Gemini Robotics On‑DeviceGemini Robotics On‑Device 是 Google DeepMind 推出的本地运行 VLA(Vision‑Language‑Action)机器人模型,具备高通用性、高灵活性和低延迟响应,能在无互联网环境中执行复杂操作任务,并通过 SDK 支持快速定制化与开发者部署。04240API与SDK制造业与工业# 机器人模型
万兴天幕AI万兴天幕(Wondershare Tomoviee)是万兴科技最新一代音视频多媒体大模型 2.0,由万兴与华为云联合打造,具备视频、图像、音频生成能力,通过天天幕创作广场和 API 引擎,为 AI 工具使用者和开发者提供一站式创作方案。02940大模型最近收录AI# AI扩图# AI艺术生成工具# AI视频翻译
子曰3(Confucius3‑Math)子曰3(Confucius3‑Math)是网易有道开源的 14B 数学大模型,专注 K‑12 教育,具备高考题 98.5 分实力,可在 RTX 4090 D 单卡上运行,服务成本仅 0.15 美元/百万 tokens,性价比极高。02390大模型开源工具与社区# AI数学辅导工具# K‑12 数学教育# 数学推理大模型
MuMu 是微软推出的 330M 参数小型语言模型,专为 Copilot+ PC 上的 NPU 本地运行优化,驱动 Windows 设置中的 AI Agent,支持自然语言控制系统设置。超快速响应(<500 ms)、绝对隐私、无需云端,是面向 AI 工具用户的轻量化 AI 交互解决方案。02960大模型最近收录AI# 小型语言模型
Confucius3-MathConfucius3-Math 是由网易有道开源的 14B 参数数学专用大模型,通过强化学习优化,支持在消费级 GPU 上高性能推理,在高考、K‑12 等多项数学基准中排名领先,是教育 AI 工具开发者的首选模型。03630大模型开源工具与社区# 数学模型
Ring-liteRing-lite 是 InclusionAI 开源的轻量级 MoE 大语言模型(16.8B 参数、2.75B 激活参数),通过 C3PO 强化学习优化跨领域推理性能,高效对标甚至超过主流小体量推理模型。02730免费AI工具大模型# 大语言模型
元智医疗大模型元智医疗大模型(uAI NEXUS)是联影打造的多模态医疗大模型,覆盖文本、影像、语音、视觉与混合任务,并衍生 10 余款智能体赋能诊断、手术、报告书写与设备管理,是AI工具使用者了解行业创新与落地应用的专业门户。04720医疗与健康大模型# 医疗智能体# 影像大模型# 文本大模型
MindOmniMindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。03270大模型开源工具与社区# 多模态大语言模型
盘古大模型5.5盘古大模型 5.5 是华为最新一代大模型系列,包括 Ultra MoE(7180 亿参数)与 Pro MoE(72B 参数)两大版本,搭配快慢思考策略、高效长序列推理和多模态能力,已在智能驾驶、科研与行业落地等场景中展现卓越性能,适合 AI 工具使用者深入探索与应用。02120大模型最近收录AI
OneRecOneRec 是一款端到端生成式推荐模型,通过统一检索与排序流程、会话级生成和迭代偏好对齐,显著提升视频推荐质量并已在快手(Kuaishou)平台上线,助力 AI 工具使用者深入理解前沿推荐系统技术。03140大模型最近收录AI# 端到端生成模型
SongGenerationSongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲,支持中文与英文,适合 AI 工具使用者快速落地音乐创作。03520大模型开源工具与社区# AI音乐生成# 多语言支持
Skywork‑SWE‑32BSkywork‑SWE‑32B 是 Skywork AI 发布的开源代码代理模型,专为软件工程任务优化,具备 38% pass@1 基础准确率,测试时增强可提升到 47%,支持 32K 上下文和多种量化格式,适合 AI 工具使用者和开发者快速集成。03760大模型开源工具与社区# 代码代理大型语言模型
Midjourney V1Midjourney V1 是 Midjourney 推出的首个 AI 图像到视频生成模型,支持 5–21 秒动画短片,提供自动或手动动画模式,是创意视频制作与社交内容生成的新工具。02360商业产品与订阅服务大模型# AI视频生成模型
Hailuo 02Hailuo 02 是 MiniMax 推出的最新 AI 视频生成模型,支持文本和图像转视频,具备 768p、10 秒时长选项,具备物理仿真、摄像机控制、高成本效能比,超越 Google Veo 3,适合创作者与开发者使用。02520大模型最近收录AI# AI短视频生成# 图像转视频# 文本转视频
Redirecting…Kimi‑Dev 是 MoonshotAI 推出的开源 编码 LLM,采用强化学习方案 BugFixer 与 TestWriter 双模架构,支持自动补丁生成、测试编写,SWE‑bench 验证准确率达 60.4%,适合开发者和研究者部署使用。03920免费AI工具大模型# 编码大语言模型
DreamActor‑H1DreamActor-H1 是首款高保真人-商品演示视频生成模型,采用 Diffusion Transformer、3D 姿态引导与语义增强技术,在电商中实现真实手势交互与产品呈现。04100大模型开源工具与社区# AI电商平台内容生成# AI高保真视频生成# 视频生成模型
MiniMax‑M1MiniMax‑M1 是全球首个开放参数混合注意力大模型,拥有 4.56 e11 参数、1 百万 token 上下文长度和高效强化学习训练机制,擅长数学、编程、长上下文理解和复杂推理任务。03480免费AI工具大模型# 大模型
Seaweed APT2Seaweed APT2 是 ByteDance 最新推出的实时交互式视频生成模型,采用 自回归对抗后训练(AAPT) 技术,实现单 GPU 24 fps、长视频流式生成,支持虚拟人物与世界漫游互动。02850大模型最近收录AI# AI世界漫游模拟# AI内容创作# AI虚拟人物动画
Hunyuan3D‑2.1Hunyuan3D‑2.1 是腾讯发布的开源工业级 3D 生成系统,支持高保真 PBR 材质与自动化纹理合成。适合游戏、影视、工业设计等应用场景,为开发者提供模型权重、训练代码与部署方案。04920大模型大模型 API# 3D模型系统# AI工业设计师# AI影视开发
NFD一种高效的 视频生成模型,具备单步或少步推理能力,通过一致性蒸馏和 speculative 抽样策略,实现近 30 FPS 的实时视频生成,为交互式视频与流媒体应用带来新机遇。02850大模型最近收录AI# AI动画生成# AI实时内容直播# AI视频增强
SeedVR2一款领先的 单步视频修复模型,通过自适应窗口注意力与对抗后训练,仅用一次推理即可高质量恢复真实场景下的高清视频,兼容高分辨率(如 1080p、2K),实现高效视觉增强。05120大模型最近收录AI# AI内容创作# AI游戏视频增强# AI生成视频处理
PlayDiffusionPlay AI 公司推出的开源音频编辑模型,基于先进的扩散模型(diffusion model)构建,专注于提供高效的音频精细编辑与修复功能。03140大模型开源工具与社区# AI配音# AI音频编辑模型# 播客制作
V‑JEPA 2Meta 最新推出的 世界大模型,基于视频训练世界模型,实现机器理解、预测与计划,支持视频内物理推理、零样本机器人控制,推动 AI 向高级机器智能迈进。02340大模型最近收录AI# 世界大模型
豆包大模型1.6字节跳动火山引擎推出的首款 多模态深度思考大模型,支持256K超长上下文、自适应思考、图形界面操作、低成本区间定价。本文详解功能亮点、使用场景、技术原理、常见问题与优化建议,帮助 AI 工具使用者全面掌握豆包1.6 的潜力与落地策略。02840API与SDK大模型# 多模态深度思考大模型
Seedance 1.0字节跳动旗下火山引擎推出的旗舰 视频生成基础模型,支持图像转视频、文本转视频,具备多镜头无缝拼接、影视级运镜和高语义理解能力。本文深度剖析 Seedance 1.0 的功能、使用指南、技术亮点与应用场景,并配常见问题 FAQ,助力 AI 工具用户掌握这款创新模型。04090大模型最近收录AI# 图生视频# 文生视频# 视频生成模型
krea-1一款强大的 AI图像生成模型,以卓越的图像清晰度、超快实时渲染和风格可训练性为特色。本文深入探讨 Krea 1 的功能、使用方法、技术优势和典型应用场景,并附详尽常见问题解答,助力 AI 工具爱好者快速上手与使用。02900大模型最近收录AI# AI图像生成模型# AI电商视觉创作# AI艺术生成工具
MagistralMagistral —— Mistral AI 发布的首款 推理模型(reasoning model) 系列,支持推理能力更强、支持多语言、可链式思考。02230API与SDK大模型# 多语言推理能力# 推理模型
PartCrafterPartCrafter ——首个支持从单张 RGB 图像生成结构化 3D 模型 的 AI 工具。03850大模型教育与学习# 3D生成模型# AI 3D打印原型设计# AI虚拟现实模型搭建
Time‑R1一个由学者提出、面向大型语言模型(LLM)的时序推理框架,通过强化学习精炼生成的小模型(≈3 B 参数),具备对“历史时间理解”、“未来事件预测”及“创造性时间想象”的能力,推理性能优于体量大 200 倍以上的模型。03740大模型教育与学习# AI内容创作
MonkeyOCR华中科技大学与金山办公联合推出的一款高效文档解析AI模型,专门用于将非结构化文档(如PDF、图像)准确转化为结构化信息(文本、表格、公式等)。08510医疗与健康大模型# AI内容识别# AI文档解析模型# AI电子病历
dots.llm1小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。02950大模型最近收录AI# AI代码生成# AI问答助手# 大型稀疏专家(MoE)语言模型
Eleven v3由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音(TTS)模型的 Alpha 版本。02940大模型最近收录AI# AI多角色对话# AI广告配音# AI情感表达
Qwen3 Reranker阿里云通义千问团队于 2025 年 6 月发布的开源文本重排序(Reranking)模型,作为 Qwen3 Embedding 系列的一部分。02590大模型开源工具与社区# AI信息检索# 多语言支持# 模型
Qwen3 Embedding阿里云通义千问团队于 2025 年 6 月推出的全新文本嵌入与重排序模型系列,专为文本表征、信息检索和排序任务设计。02260大模型智能推荐系统# AI信息检索# AI语义搜索# AI问答
OpenAudioFish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。02270大模型娱乐媒体# AI播客能容创作# AI有声书内容创作# AI游戏角色语音
OmniAudio阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。02560大模型娱乐媒体# AI增强现实# AI虚拟现实# AI音频内容创作
TrackVLA银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型(FSD)。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。04070医疗与健康大模型# 大模型# 导航大模型
从容大模型从容大模型 是由云从科技(孵化自中科院自动化所)研发的国产通用多模态大语言模型(LLM),支持文本、图像、语音等多模态输入,具备强大的理解、生成与推理能力。02290大模型最近收录AI# 多模态大模型# 大模型
SignGemmaGoogle DeepMind 于 2025 年 5 月推出的一款先进的 AI 手语翻译模型,旨在打破听障人士在沟通中的障碍。03330医疗与健康大模型# 多模态AI模型# 手语翻译模型