OpenAI FrontierOpenAI Frontier 是 OpenAI 于 2026 年推出的企业级 AI 平台,用于构建、部署与管理 AI 代理(AI coworkers)。该平台连接企业内部系统与数据、提供共享业务上下文、身份权限控制和性能优化循环,并支持跨环境运行复杂工作任务。02140企业用户最近收录AI# AI 代理管理# 企业自动化# 共享业务上下文
FLUX.2 [klein]FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族,支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能,适用于研究、开发和交互式视觉智能应用。02140大模型开源工具与社区# 低延迟推理# 多参考图像支持# 实时图像生成
WorkAny BotWorkAny Bot 是基于 OpenClaw 框架的云端 AI 智能体,支持 7×24 小时在线运行、接入多种 AI 模型、自定义插件及多渠道交互。它具备长期记忆、任务执行与自动化能力,可通过 Web 或即时通讯应用完成查询、内容生成、编程支持及办公自动化等任务。02120最近收录AI自主智能系统# AI智能体# 持续在线# 插件扩展
Open ScreenOpenScreen 是一款免费、开源的屏幕录制与演示制作工具,作为 Screen Studio 的简洁替代方案,支持全屏及指定窗口录制、手动缩放效果、画面裁剪、注释添加及背景定制等功能,帮助创作者快速制作高质量教程、产品演示与教学视频。02120开源工具与社区最近收录AI# AI屏幕录制工具
GPT-5.2GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日发布的最新大模型版本,专为专业知识工作、复杂多步骤任务以及更高效的生成式智能体验打造,在生成电子表格、演示文稿、代码、长文本理解和工具调用等方面显著领先前代,适合企业级应用与生产力提升。02110大模型最近收录AI# chatgpt5.2
Seedance 1.5 Pro字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。02090内容创作大模型# AI情感短片视频生成# AI视频生成# 音视频联合生成模型
Gemini TTSGemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。02090API与SDK内容创作# AI语音合成# 多语言支持# 文本转语音
SpokenlySpokenly 是一款适用于 macOS / iOS 的智能语音听写与语音-驱动输入工具,支持 100+ 语言、离线转写与云服务、实时语音转文字、AI 文本润色、语音命令控制,适合写作、会议记录、聊天、编程、文档编辑等各种文本输入场景。02090最近收录AI语音识别与生成# AI语音转文字
Vidu AgentVidu 团队推出的 AI 视频创作智能体平台,通过“一键成片”技术与自动分镜编排,实现从视觉输入到成品输出的全流程视频生成,适用于广告、产品展示、短片与创意视频等多种场景。02040内容创作最近收录AI# AI分镜编辑# AI视频创作智能体平台# AI视频生成工具
FLUX.2FLUX.2 是 Black Forest Labs 推出的新一代 AI 图像生成与编辑模型,支持最多 10 张参考图、多参考融合、高达 4MP 的高精度输出、复杂文本渲染和品牌级一致性,适合设计师、营销、产品可视化和创意团队进行专业级图像创作。02040内容创作大模型# AI图像模型# AI图像编辑# 文生图像
PaperBananaPaperBanana 是由北京大学与 Google Cloud AI Research 联合提出的多智能体框架,用于自动化生成可出版级学术插图,包括方法论图与统计图。该系统结合视觉语言模型与图像生成技术,通过检索、规划、渲染与自我批判等步骤提升科研图像制作效率与质量。02030最近收录AI# 多智能体视觉识别规划# 方法图# 统计图
GPT-5.3 CodexGPT-5.3 Codex 是 OpenAI 于 2026 年推出的最新编码与智能代理模型变体,集成于 Codex 生态系统中,针对真实软件工程任务、代理协作和长流程执行进行了优化,提供跨环境集成与专业工作流支持。02030最近收录AI编程工具# GPT-5.3-Codex# 专业推理# 智能代理
SoulX-FlashTalkSoulX-FlashTalk 是 Soul AI Lab 开源的实时数字人生成模型,基于 14B 参数级别架构,通过自纠正双向蒸馏和全栈推理加速技术实现亚秒级延迟(0.87s)和持续 32 FPS 实时视频生成,主要用于音频驱动的虚拟形象交互、长时生成流式输出和多语言驱动应用场景。02020大模型最近收录AI# 亚秒级延迟# 交互性能# 实时数字人生成
LingBot-VALingBot-VA 是蚂蚁灵波科技(Robbyant / Ant Group)发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法,实现视频动态未来预测与机器人动作序列推理的统一,在真实机器人与仿真环境中提升长时序与复杂操作任务的表现。02020大模型开源工具与社区# 机器人操作控制# 自回归推理# 视觉动作世界模型
Temvideo.aiTemvideo.ai 是一款面向电商、内容创作者与品牌商的 AI 视频生成 /编辑平台,通过 AI-agent 和模板机制,将图片、脚本或产品素材自动生成广告视频、产品展示、社交媒体短视频等,大幅节省剪辑与制作时间,适合电商卖家、内容创作者、跨境品牌快速输出优质视频。02020内容创作最近收录AI# AI 视频 Agent# AI电商助手# AI视频智能体
FrogBossFrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法(BugPilot)训练出的开源编程智能体模型,专用于软件工程任务评估与调试技能提升,在 SWE-Bench-Verified 等基准测试中达到领先表现。02010大模型最近收录AI# SWE-Bench-Verified 基准# 合成 bug 训练# 复杂 bug 生成
MOVAMOVA(MOSS Video and Audio)是上海创智学院 OpenMOSS 团队与模思智能(MOSI)联合发布的开源端到端音视频生成基础模型。该模型采用异构双塔架构与双向交叉注意力机制,在单次推理中同步生成视频与音频输出,具备多语言唇形同步与环境音效生成等能力,支持最高 720p 和最长 8 秒的视听片段生成。01980大模型开源工具与社区# MOVA# 端到端多模态模型# 音视频同步生成
WitNote一款开源且 本地优先(local-first)AI 写作与笔记工具,支持Windows 和 macOS 平台,内置多种 AI 引擎并可在本地运行。01980内容创作最近收录AI# AI内容生成# AI推理# AI笔记助手
MiMo-V2-Flash小米开源的高效混合专家(MoE)大语言模型,具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持,在推理、代码生成与智能体任务上表现出色。01980大模型开源工具与社区
星火教师助手星火教师助手 是科大讯飞基于星火认知大模型打造的 AI 教育辅助工具,支持教学设计、课件与素材生成、资源检索、搜题组卷、课堂分析等功能,用于提高教师备课效率与教学质量。01960教育与学习教育者与研究人员# AI 对话# AI教育工具# 搜题组卷
Molmo 2Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型,具备先进的空间–时间定位、视频跟踪与密集描述能力,适用于视频问答、对象计数、追踪与密集标注等复杂任务。01930开源工具与社区最近收录AI
StepAudio R1StepAudio R1 是首个真正能对音频进行“Chain-of-Thought(CoT)推理 / 深度分析”的开源音频语言模型,支持对说话、音乐、环境音进行理解、推理与分析,适合开发者、研究者、内容创作者用于音频理解、分析、检索与多模态工具构建。01920开源工具与社区最近收录AI
FunctionGemmaFunctionGemma 是 Google 发布的轻量级 AI 模型,专为 函数调用(function calling)和工具执行任务 优化,可将自然语言指令精准转换为可执行 API 调用或本地操作,并在设备端高效运行。01910大模型最近收录AI# 函数调用模型
MoltbookMoltbook 是一个为人工智能代理(AI agents)设计的社交网络平台,允许这些自主代理通过 API 形式发布帖子、评论和投票,并创建主题社区‘Submolts’。该平台模仿 Reddit 风格,但交互权限主要面向 AI 系统,旨在探索代理间协作、自治行为和AI生态互动模式。01900最近收录AI# AI Agents# AI 代理社交网络# OpenClaw 框架
Qwen3-Max-ThinkingQwen3-Max-Thinking 是阿里巴巴推出的旗舰深度推理 AI 模型,用于复杂逻辑推理、数学与编码任务,并支持大上下文输入(约 262K 令牌),提供可调 reasoning depth(思考预算)机制以平衡推理质量与延迟。01890大模型最近收录AI# Alibaba AI# Qwen3-Max# 复杂推理
DokieDokie 是一款基于人工智能的演示文稿生成与编辑工具,支持从文本大纲、文档或链接自动创建结构化幻灯片,并提供内容调整与导出功能,适用于商业和教育场景的演示开发。01890最近收录AI# AI PPT制作工具# AI 语义理解# 内容结构化
Seedream 5.0Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型,具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力,支持复杂场景创作和商业级视觉资产生产。01880大模型最近收录AI# 4K输出# AI图像生成# 图像编辑
GLM-OCRGLM-OCR 是智谱 AI(Zhipu AI)发布的开源轻量级多模态 OCR 模型,参数约 0.9B,基于 GLM-V 架构及 CogViT 视觉编码器,优化复杂文档解析、表格识别、公式识别与结构化输出。支持多种推理引擎部署与结构化结果输出。01880大模型开源工具与社区# OCR 模型# 多模态 OCR# 结构化输出
GWM-1GWM-1 是由 Runway 发布的首个通用世界模型(General World Model),基于 Gen-4.5 架构,通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支,适用于交互式世界构建、机器人训练与数字人生成等领域。01880大模型最近收录AI# 世界模型
DeepSeek-Math-V2DeepSeek-Math-V2 是一个开源数学推理模型,通过“生成 + 自验证 (generate-and-verify)”机制,实现了 IMO 金牌水平的定理证明与数学竞赛能力,非常适合研究者、学生、开发者与数学爱好者用于复杂数学问题求解、证明辅助与教育 /学习。01870大模型开源工具与社区# AI数学模型
SecondMe BookSecondMe Book 是一种 AI 分身社交平台模块,基于 Second Me 个性化 AI 始体系统支持用户创建代表自身思维与表达风格的 AI 代理,在社交网络社区中进行自主发帖、互动及讨论,同时真人用户可发帖与观察互动行为。01850最近收录AI自主智能系统# AI 代理# AI 分身# AI 社交网络
TensorRT LLMTensorRT LLM 是 NVIDIA 提供的开源推理优化库,旨在提升大型语言模型(LLM)在 NVIDIA GPU 上执行推理的性能与效率。该库为开发者提供高级 Python API、模块化运行时、可定制推理内核与多种优化策略,用于单机或集群级推理部署。01820开源工具与社区最近收录AI# NVIDIA GPU# NVIDIA 推理优化# TensorRT LLM
TranslateGemmaTranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列,基于 Gemma 3 架构构建,支持 55 种语言的文本与图像内文字翻译,提供多种参数规模以适应不同部署场景。01820大模型开源工具与社区# Gemma 3# 图像内文字翻译# 多语言翻译
Intern-S1-ProIntern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型,具备混合专家(MoE)架构与通专融合架构(SAGE),在 AI4Science 科学推理与多模态理解任务上展现领先能力,支持跨学科科学研究与科研流程自动化。01800大模型开源工具与社区# AI4Science 推理# MoE 混合专家# 科学多模态大模型
Mureka V8Mureka V8 是一个由 Mureka 平台提供的 AI 音乐生成模型,基于 MusiCoT(Music Chain-of-Thought)技术,可从文本提示、歌词或参考音频生成完整的歌曲、伴奏及声乐,支持多语言输入和 API 集成,适用于内容创作、游戏配乐、音乐制作与企业应用。01780内容创作大模型# AI 音乐生成# Mureka V8# MusiCoT
UI-TARS DesktopUI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM),可通过自然语言控制计算机界面,实现图形界面识别与操作。01770大模型开源工具与社区# 桌面 GUI Agent# 视觉语言模型(VLM)
Vidi2Vidi2 是由 ByteDance 发布的 12 B 多模态视频理解与创作模型,支持长视频解析、精确时空定位 (Spatio-Temporal Grounding)、自动剪辑与脚本生成,是内容创作、短视频制作、影视剪辑与视频理解研究的新利器。01770大模型开源工具与社区# AI长视频处理
Kimi K2.5Kimi K2.5 是 Moonshot AI 发布的开源原生多模态智能体模型,支持文本、图像、视频和 PDF 等输入类型,具备视觉编程、Agent Swarm 并行任务执行、长上下文推理等能力,适用于复杂任务工作流、视觉代码生成、知识性推理和办公自动化等应用。01760大模型最近收录AI# Agent Swarm# 多模态模型# 并行任务执行
AgentationAgentation 是一个开源前端开发辅助工具,通过可视化标注网页元素并生成结构化 Markdown 反馈,使 AI 编程助手(如 Claude Code、Cursor)能够准确定位代码中的对应组件或元素位置。01710最近收录AI编程工具# AI 编程助手兼容# AI编程助手# Markdown 输出
Vidu Q2参考生ProVidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。01700大模型最近收录AI# AI视频编辑# Vidu Q2参考生Pro# 人物表情迁移
Prompt ManagerPrompt Manager(PromptX)是一个开源提示词管理与版本控制工具,支持提示词的创建、分类、全局搜索及版本历史对比。PromptX 提供个人提示词库、公共模板库及社区评分机制,用于增强提示词的组织与复用能力。01700开源工具与社区最近收录AI# Docker 部署# 全局搜索# 公共模板库
Skywork桌面版Skywork桌面版(Skywork Desktop)是昆仑天工推出的 Windows 原生 AI 办公助手,可在本地虚拟机隔离环境中直接读取各种本地文件并理解内容,实现跨格式、跨模态的智能处理与自动化任务执行。01680内容创作数据分析与预测# AI Agent# Skywork桌面版# Windows 桌面助手