T5Gemma 2T5Gemma 2 是谷歌推出的下一代 编码器-解码器(Encoder-Decoder)AI 模型系列,基于 Gemma 3 家族架构,新增多模态输入与超长上下文处理能力。0540大模型最近收录AI# 解码器大型语言模型
FunctionGemmaFunctionGemma 是 Google 发布的轻量级 AI 模型,专为 函数调用(function calling)和工具执行任务 优化,可将自然语言指令精准转换为可执行 API 调用或本地操作,并在设备端高效运行。0600大模型最近收录AI# 函数调用模型
EcombenchEcomBench 是一个全面的 电商场景 AI 智能体能力评测基准,由业界和学术界联合推出,旨在用真实业务任务评估大语言模型及智能体在电商运营中的综合能力。0660最近收录AI零售与电商
Step-GUI阶跃星辰团队发布的 开源 AI GUI Agent 系列模型与基础设施,覆盖其核心技术、架构、功能、应用场景、部署方法与常见问题。0890最近收录AI自主智能系统# 开放式 GUI Agent
GPT Image 1.5OpenAI 发布的最新图像生成与编辑 AI 模型,作为 ChatGPT Images 的核心引擎,它以 最高达 4× 更快的生成速度、更强的指令执行力、精细细节保留与创意转换能力 为特性,支持创意图像生成、照片编辑与视觉工作流自动化。0570内容创作大模型# AI图像生成模型# AI图像编辑模型# 文本生成图像
Molmo 2Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型,具备先进的空间–时间定位、视频跟踪与密集描述能力,适用于视频问答、对象计数、追踪与密集标注等复杂任务。0600开源工具与社区最近收录AI
MiMo-V2-Flash小米开源的高效混合专家(MoE)大语言模型,具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持,在推理、代码生成与智能体任务上表现出色。0620大模型开源工具与社区
Seedance 1.5 Pro字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。0570内容创作大模型# AI情感短片视频生成# AI视频生成# 音视频联合生成模型
万相2.6阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。0690大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
DiscoGoogle 最新推出的实验性 AI 浏览体验,该工具由Gemini 3 大模型驱动,通过自动将浏览器标签页转化为交互式 Web 应用(称为 GenTabs),重新定义浏览器与 AI 协作体验。本文面向 AI 工具使用者详细介绍其核心功能、使用方式、优势与常见问题。0720最近收录AI自主智能系统# AI浏览器
UnityVideo一个面向 AI 研究与工具使用者的多模态、多任务视频生成框架,通过统一视觉模态(例如深度、光流、骨骼和分割掩码等)与训练范式,显著提升 AI 视频合成的质量、一致性与现实世界对齐能力。本文深度介绍 UnityVideo 的原理、技术构成、应用场景与常见问题解答。0960最近收录AI框架与库# AI视频生成框架
Nemotron 3NVIDIA 最新发布的开放 AI 模型家族,覆盖 Nano、Super 和 Ultra 版本,通过突破性混合专家架构(hybrid Mixture-of-Experts)实现高推理效率与长上下文处理能力,是构建多代理智能系统与复杂推理任务的开源基础模型解决方案。本文针对 AI 工具使用者系统介绍其架构、性能、应用场景与常见问题解答。0780企业用户最近收录AI# 开放 AI 模型家族
Banana Slides一个基于 nano banana pro 强大模型的开源 AI PPT 生成工具,它如何通过自然语言驱动、文件解析与素材上传等机制实现高质量、定制化的演示文稿自动生成,适用于个人用户与开发者场景。本文系统梳理核心功能、技术架构、使用方法与常见问题。0850最近收录AI计算机视觉# AI PPT 生成工具
Claude-MemClaude-Mem 是一个专为 Claude Code 设计的开源持久记忆插件,通过自动捕获 AI 会话中的上下文、工具调用和观察,并将经 AI 压缩与结构化后的关键信息注入未来会话,实现跨会话记忆持续、语义搜索与自然语言历史检索等功能,大幅提升长期项目协作体验。0720开源工具与社区最近收录AI
Open ScreenOpenScreen 是一款免费、开源的屏幕录制与演示制作工具,作为 Screen Studio 的简洁替代方案,支持全屏及指定窗口录制、手动缩放效果、画面裁剪、注释添加及背景定制等功能,帮助创作者快速制作高质量教程、产品演示与教学视频。0620开源工具与社区最近收录AI# AI屏幕录制工具
Gemini TTSGemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。0620API与SDK内容创作# AI语音合成# 多语言支持# 文本转语音
GWM-1GWM-1 是由 Runway 发布的首个通用世界模型(General World Model),基于 Gen-4.5 架构,通过逐帧像素预测模拟动态环境、物理规律和时间演化。GWM-1 包括 GWM Worlds、GWM Robotics 与 GWM Avatars 三个专业分支,适用于交互式世界构建、机器人训练与数字人生成等领域。0570大模型最近收录AI# 世界模型
Gemini Deep ResearchGemini Deep Research 是由 Google 发布的高级研究型 AI 代理,通过 Gemini API(Interactions API)支持复杂多步骤研究任务自动规划、搜索、阅读与综合,能够生成详尽的报告并融合 Web 与自有数据资源,是构建自动化智能研究、市场分析、竞争情报与长流程信息整合的利器。0730API与SDK最近收录AI# AI Agent
GPT-5.2GPT-5.2 是 OpenAI 于 2025 年 12 月 11 日发布的最新大模型版本,专为专业知识工作、复杂多步骤任务以及更高效的生成式智能体验打造,在生成电子表格、演示文稿、代码、长文本理解和工具调用等方面显著领先前代,适合企业级应用与生产力提升。0680大模型最近收录AI# chatgpt5.2
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。0860内容创作大模型# AI语音助手# 多语言语音输出
PosterCopilotPosterCopilot 是由南京大学、LibLib.ai 与中国科学院自动化所联合推出的 AI 海报设计框架,通过布局推理、审美强化学习与分层可控编辑,为专业海报布局和设计流程提供自动化与迭代式编辑能力,适合设计师、营销人员与创意团队使用。0730开源工具与社区最近收录AI# AI海报设计# AI视觉艺术
GLM-TTSGLM-TTS 是一款由 Zhipu AI 开源的工业级 文本转语音(TTS) 系统,支持零样本音色克隆、情感表达控制与流式生成。它采用双阶段架构与多奖励强化学习,可实现高质量自然语音合成,适用于语音助手、有声读物、客服、教育等多种场景。01440内容创作开源工具与社区# AI有声读物# AI语音克隆# 文本转语音(TTS)
iSlide AIPPTiSlide AIPPT 是一款由成都艾斯莱德网络科技推出的 AI 驱动型幻灯片(PPT)生成与设计工具,通过智能语义解析、自适应模板、AI 内容生成、自动排版与视觉优化等功能,让用户在一分钟内创建专业级演示文稿,是个人与企业提高办公效率的利器。02,5090教育与学习最近收录AI# AI PPT生成
QuestasQuestas 是一款 AI 驱动的互动故事与多媒体内容生成平台,允许用户通过文字提示快速生成图像与视频,并构建“分支/选择你的冒险 (choose-your-own-adventure)”式的互动故事。适合创作者、教育者、游戏设计师、小团队与内容运营者,无需编程或美术基础,即可打造沉浸式故事体验。01270内容创作娱乐媒体# AI视频生成工具# 故事编辑器# 文生图
VoraVora 是一个由 Fineshare 提供的 AI 视频生成与编辑平台,支持将文本提示或图片转换为高清、无水印、带配音的视频,也支持提示词生成、视频增强与水印移除,是内容创作者、电商卖家、营销人员、社交媒体运营者制作短视频与广告视频的便捷工具。0960内容创作最近收录AI# AI视频内容创作# AI视频增强# AI视频生成工具
GuideflowGuideflow 是一款面向 SaaS 和数字产品的 AI 演示自动化平台,可在几秒钟内创建交互式产品 Demo、用户指南和产品演示,支持无代码编辑、品牌定制、分享与嵌入、数据分析与多种团队协作场景,非常适合产品营销、销售、客服与入职培训使用。0920最近收录AI
PallasAIPallas AI 是一款专注于 AI 时代品牌 /内容 /营销优化的 GEO-Agent 平台,通过自动化诊断、内容生成、竞争分析与实时监控,帮助品牌提升在 AI 搜索与对话推荐中的可见性,适合品牌主、电商卖家、内容运营者、小团队使用。0750最近收录AI自然语言处理(NLP)# AI SEO# AI搜索优化# AI营销
Google Workspace StudioGoogle Workspace Studio 是 Google 推出的 no-code AI 代理构建平台,允许用户通过自然语言在 Gmail、Drive、Chat、Docs 等 Workspace 应用中一键创建、管理和共享智能 AI agent,自动化日常任务与复杂工作流程,适合企业、团队及普通用户提升办公效率。01100最近收录AI编程工具# AI Agent# AI-powered agent
Gemini 3 DeepThinkGemini 3 DeepThink 是 Google 推出的新版 AI 推理 /多模态模型,通过增强算力与并行推理机制,实现对复杂数学、科学、逻辑、编程、创意任务的深度思考与解决,是科研、学习、开发、创作和高级思维任务用户的新利器。0860教育者与研究人员最近收录AI# Agentic
可灵O1可灵O1 是由 可灵AI 发布的全球首款统一多模态视频生成大模型,支持图片、视频与文字混合输入,实现从文生图/文生视频/图生视频到视频编辑的一站式创作流程,适合内容创作者、电商、广告商与自媒体用户快速生成短视频与营销内容。0870大模型最近收录AI# AI图像生成# AI视频创作工具# AI视频创作平台