MOSS‑TTSDMOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。03910大模型最近收录AI# AI客服# AI播客# AI语音生成框架
混元‑A13B混元‑A13B 是腾讯混元团队开源的首个 13B 激活参数 MoE 混合推理模型,提供高效推理、超长上下文(256K tokens)、Agent 工具调用能力和推理模式切换。本文全面解析其架构、性能、部署优化、应用场景和 FAQ,帮助 AI 用户快速理解与落地。03910大模型最近收录AI# 256K 超长上下文窗口# Agent 任务生态
Step‑Audio‑AQAAStep‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型,支持音频问答任务,从原始音频直接生成自然语音回答,具备情感、语速、方言控制,高保真响应,非常适合 AI 工具使用者构建交互式音频智能系统。03870大模型最近收录AI# AI音色控制# 双重编码器# 端到端处理
PlayDiffusionPlay AI 公司推出的开源音频编辑模型,基于先进的扩散模型(diffusion model)构建,专注于提供高效的音频精细编辑与修复功能。03840大模型开源工具与社区# AI配音# AI音频编辑模型# 播客制作
Grok4.1Grok 4.1 是 xAI 最近发布的大型语言模型 (LLM),主打更快的响应、更低的“幻觉率”、更高的情感理解与代码/多模态能力。本文面向 AI 工具使用者 (开发者、内容创作者、研究者) 深入剖析 Grok 4.1 的功能、优势、适用场景、局限与使用建议。03770大模型最近收录AI
OneRecOneRec 是一款端到端生成式推荐模型,通过统一检索与排序流程、会话级生成和迭代偏好对齐,显著提升视频推荐质量并已在快手(Kuaishou)平台上线,助力 AI 工具使用者深入理解前沿推荐系统技术。03770大模型最近收录AI# 端到端生成模型
MindOmniMindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。03730大模型开源工具与社区# 多模态大语言模型
豆包大模型1.6字节跳动火山引擎推出的首款 多模态深度思考大模型,支持256K超长上下文、自适应思考、图形界面操作、低成本区间定价。本文详解功能亮点、使用场景、技术原理、常见问题与优化建议,帮助 AI 工具使用者全面掌握豆包1.6 的潜力与落地策略。03700API与SDK大模型# 多模态深度思考大模型
Ovis‑U1Ovis‑U1 是阿里巴巴 AIDC‑AI 推出的 30 亿参数统一多模态模型,集图像理解、文本生成、图像生成与编辑能力于一体,适合 AI 工具使用者快速构建多功能视觉交互应用。03650大模型计算机视觉# 多模态模型
NFD一种高效的 视频生成模型,具备单步或少步推理能力,通过一致性蒸馏和 speculative 抽样策略,实现近 30 FPS 的实时视频生成,为交互式视频与流媒体应用带来新机遇。03630大模型最近收录AI# AI动画生成# AI实时内容直播# AI视频增强
DeepSeek R1T2DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM,兼顾高推理能力、低延迟与开放开源,适合 AI 工具使用者在本地部署高效问答与生成任务。03620大模型开源工具与社区# AI问答机器人# 混合式大语言模型
万兴天幕AI万兴天幕(Wondershare Tomoviee)是万兴科技最新一代音视频多媒体大模型 2.0,由万兴与华为云联合打造,具备视频、图像、音频生成能力,通过天天幕创作广场和 API 引擎,为 AI 工具使用者和开发者提供一站式创作方案。03570大模型最近收录AI# AI扩图# AI艺术生成工具# AI视频翻译
Eleven v3由 ElevenLabs 于 2025 年 6 月推出的最新文本转语音(TTS)模型的 Alpha 版本。03560大模型最近收录AI# AI多角色对话# AI广告配音# AI情感表达
dots.llm1小红书(RedNote)的 Humane Intelligence Lab(hi lab)开源发布的一款大型稀疏专家(MoE)语言模型。03430大模型最近收录AI# AI代码生成# AI问答助手# 大型稀疏专家(MoE)语言模型
MuMu 是微软推出的 330M 参数小型语言模型,专为 Copilot+ PC 上的 NPU 本地运行优化,驱动 Windows 设置中的 AI Agent,支持自然语言控制系统设置。超快速响应(<500 ms)、绝对隐私、无需云端,是面向 AI 工具用户的轻量化 AI 交互解决方案。03420大模型最近收录AI# 小型语言模型
krea-1一款强大的 AI图像生成模型,以卓越的图像清晰度、超快实时渲染和风格可训练性为特色。本文深入探讨 Krea 1 的功能、使用方法、技术优势和典型应用场景,并附详尽常见问题解答,助力 AI 工具爱好者快速上手与使用。03410大模型最近收录AI# AI图像生成模型# AI电商视觉创作# AI艺术生成工具
Grok 4Grok 4 是 xAI 推出的最新大语言模型,具备实时网络搜索、原生工具调用、多 Agent 推理与多模态能力,适合开发者与 AI 工具使用者用于复杂推理与多场景部署。03330API与SDK大模型# AI实时搜索# 多Agent架构# 强化学习
Goedel‑Prover‑V2Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列,通过专家迭代、自我修正与模型平均三项创新,实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA,适合 AI 工具使用者用于数学推理和 Agent 集成。03320大模型开源工具与社区# 定理证明模型
Seaweed APT2Seaweed APT2 是 ByteDance 最新推出的实时交互式视频生成模型,采用 自回归对抗后训练(AAPT) 技术,实现单 GPU 24 fps、长视频流式生成,支持虚拟人物与世界漫游互动。03310大模型最近收录AI# AI世界漫游模拟# AI内容创作# AI虚拟人物动画
Hailuo 02Hailuo 02 是 MiniMax 推出的最新 AI 视频生成模型,支持文本和图像转视频,具备 768p、10 秒时长选项,具备物理仿真、摄像机控制、高成本效能比,超越 Google Veo 3,适合创作者与开发者使用。03230大模型最近收录AI# AI短视频生成# 图像转视频# 文本转视频
Ring-liteRing-lite 是 InclusionAI 开源的轻量级 MoE 大语言模型(16.8B 参数、2.75B 激活参数),通过 C3PO 强化学习优化跨领域推理性能,高效对标甚至超过主流小体量推理模型。03200免费AI工具大模型# 大语言模型
Gemini 3Gemini 3 是由 Google DeepMind 推出的最新 AI 模型,融合强大推理、多模态理解与编码/工具调用能力,为开发者、创作者、学习者提供“学、构建、规划”一体的智能助手,适合从写作、规划、代码生成到跨媒体内容创作的一体化 AI 支持。03170内容创作创意设计# AI开发# AI程序员
Qwen3 Reranker阿里云通义千问团队于 2025 年 6 月发布的开源文本重排序(Reranking)模型,作为 Qwen3 Embedding 系列的一部分。03120大模型开源工具与社区# AI信息检索# 多语言支持# 模型
OmniAudio阿里巴巴通义实验室开发的空间音频生成模型,能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。03090大模型娱乐媒体# AI增强现实# AI虚拟现实# AI音频内容创作
子曰3(Confucius3‑Math)子曰3(Confucius3‑Math)是网易有道开源的 14B 数学大模型,专注 K‑12 教育,具备高考题 98.5 分实力,可在 RTX 4090 D 单卡上运行,服务成本仅 0.15 美元/百万 tokens,性价比极高。02990大模型开源工具与社区# AI数学辅导工具# K‑12 数学教育# 数学推理大模型
Seedance 2.0Seedance 2.0 是基于先进 AI 视频生成模型的工具,支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p 视频,适用于营销、教育、社交媒体内容、叙事片段和影视预可视化等多种场景。02910大模型最近收录AI# 1080p高清视频# AI视频生成# 多镜头叙事
从容大模型从容大模型 是由云从科技(孵化自中科院自动化所)研发的国产通用多模态大语言模型(LLM),支持文本、图像、语音等多模态输入,具备强大的理解、生成与推理能力。02880大模型最近收录AI# 多模态大模型# 大模型
XVerseXVerse 是字节跳动发布的开源多主体图像生成模型,基于 DiT 调制实现对多个人物身份和语义属性(姿态、风格、光照)的独立控制,适合 AI 工具使用者生成复杂定制化场景。02850大模型最近收录AI# 多主体图像生成模型
V‑JEPA 2Meta 最新推出的 世界大模型,基于视频训练世界模型,实现机器理解、预测与计划,支持视频内物理推理、零样本机器人控制,推动 AI 向高级机器智能迈进。02800大模型最近收录AI# 世界大模型
Midjourney V1Midjourney V1 是 Midjourney 推出的首个 AI 图像到视频生成模型,支持 5–21 秒动画短片,提供自动或手动动画模式,是创意视频制作与社交内容生成的新工具。02790商业产品与订阅服务大模型# AI视频生成模型
OpenAudioFish Audio 推出的新一代文本转语音(TTS)模型,旨在生成高度自然、富有情感的语音输出。02730大模型娱乐媒体# AI播客能容创作# AI有声书内容创作# AI游戏角色语音
盘古大模型5.5盘古大模型 5.5 是华为最新一代大模型系列,包括 Ultra MoE(7180 亿参数)与 Pro MoE(72B 参数)两大版本,搭配快慢思考策略、高效长序列推理和多模态能力,已在智能驾驶、科研与行业落地等场景中展现卓越性能,适合 AI 工具使用者深入探索与应用。02710大模型最近收录AI
Qwen3 Embedding阿里云通义千问团队于 2025 年 6 月推出的全新文本嵌入与重排序模型系列,专为文本表征、信息检索和排序任务设计。02710大模型智能推荐系统# AI信息检索# AI语义搜索# AI问答
MagistralMagistral —— Mistral AI 发布的首款 推理模型(reasoning model) 系列,支持推理能力更强、支持多语言、可链式思考。02690API与SDK大模型# 多语言推理能力# 推理模型
万相2.6阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。02610大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。02610内容创作大模型# AI语音助手# 多语言语音输出
Depth Anything 3Depth Anything 3 (DA3) 是 ByteDance-Seed 团队开源的下一代通用 3D 视觉重建模型,可从任意数量与任意视角的图像/视频输入中恢复空间一致的 3D 几何结构,包括深度图、相机位姿、三维点云与新视图合成,非常适合视觉创作者、3D 艺术师、研究者与开发者进行几何估计、3D 重建与视觉内容创作。02520内容创作大模型# AI 3D艺术
MedGemma 1.5MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体,支持医学文本理解、医学影像分析与生成,用于加速医疗 AI 应用的开发与验证。02480医疗与健康大模型# 临床提示响应# 医学图像理解# 医学文本分析
Qwen-Image-Layered由 Qwen 团队开发的 图像分层 AI 模型,可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层,实现类似专业图像编辑软件的分层操作。02410大模型开源工具与社区# 图像分层模型
NitroGen一个全新的视觉-动作基础模型(Vision-Action Foundation Model),由 NVIDIA 等机构联合研发并开源,专注于通用游戏智能体的学习与控制。02370大模型最近收录AI# AI游戏开发# AI视觉编码器
GLM-5GLM-5 是 Zhipu AI(Z.ai)发布的第五代大型语言模型,采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制,支持高达 200K Token 的长上下文容量,具备先进的推理、编码、智能体任务及复杂逻辑处理能力,定位于开放源代码旗舰基础模型。02360大模型开源工具与社区# Moe架构# 大型语言模型# 智能体任务