GeminiGemini代表了Google在AI领域的最新突破,通过其多模式处理和高级推理能力,为用户和开发者提供了强大的工具和平台,以实现创新和效率的提升。01,6858AI热门产品自然语言处理(NLP)# AI内容生成器# AI增强产品# Gemini
华文笔杆华文笔杆是一款面向政府机关与企业的AI公文写作平台,提供智能起草、格式校验、会议记录成稿、知识库驱动等功能,帮助 AI 工具使用者高效完成各类公文写作任务。01,3995写作助手自然语言处理(NLP)# AI公文写作平台# AI写作润色
DeepLDeepL翻译网站是一个在线翻译工具,提供高质量的机器翻译服务。因其高质量的翻译效果和用户友好的界面,成为许多用户和企业的首选翻译工具。01,0762AI热门产品自然语言处理(NLP)# 在线翻译工具# 多语言支持# 文档翻译
Vidu Q2参考生ProVidu Q2参考生Pro 是 Vidu 平台推出的参考生视频生成模型,支持多模态输入(视频与图片),用于生成高一致性、精细化的视频内容,涵盖人物、场景、动作与特效等创作需求。050大模型最近收录AI# AI视频编辑# Vidu Q2参考生Pro# 人物表情迁移
VibeVoice-ASRVibeVoice-ASR 是微软开源的一体化自动语音识别(ASR)模型,支持单次处理最长约 60 分钟连续音频,并输出包含说话者标识、时间戳与转录文本的结构化结果,适用于会议、讲座、播客等长音频语音识别场景。080最近收录AI语音识别与生成# 时间戳# 热词识别# 结构化转录
ClawdbotClawdbot 是开源的自托管 AI 助手与智能代理系统,可在本地运行并与 WhatsApp、Telegram、Discord、Signal、iMessage 等通信平台集成,支持消息响应、自动化任务执行、持久上下文记忆与扩展技能安装。0100AI常用工具最近收录AI# 持久 context 记忆# 插件技能系统# 本地 AI 助手
FrogBossFrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法(BugPilot)训练出的开源编程智能体模型,专用于软件工程任务评估与调试技能提升,在 SWE-Bench-Verified 等基准测试中达到领先表现。0210大模型最近收录AI# SWE-Bench-Verified 基准# 合成 bug 训练# 复杂 bug 生成
AgentCPM-ExploreAgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型,在多项长程智能体基准测试中取得领先表现,支持超 100 轮持续环境交互,并提供配套的开源训练与评测基础设施。0330大模型开源工具与社区# 强化学习框架# 智能体模型# 端侧部署
TranslateGemmaTranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列,基于 Gemma 3 架构构建,支持 55 种语言的文本与图像内文字翻译,提供多种参数规模以适应不同部署场景。0340大模型开源工具与社区# Gemma 3# 图像内文字翻译# 多语言翻译
FLUX.2 [klein]FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族,支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能,适用于研究、开发和交互式视觉智能应用。0360大模型开源工具与社区# 低延迟推理# 多参考图像支持# 实时图像生成
WorkusWorkus 是一个基于 AI 智能代理的 B2B 商业网络平台,用于自动识别高意向买家、优化客户开发流程、实现多渠道智能沟通与高价值商机交付。0300企业用户最近收录AI# AI 智能代理# 动态优化反馈# 商机交付
OctoCodingBenchOctoCodingBench 是一个针对编码智能体评估的数据集,包含多源指令任务、系统提示与评估检查项,用于测量智能体在多样编码任务中的规则遵从性与执行能力。0260最近收录AI自主智能系统# Docker 任务环境# 指令遵从评估# 智能体评估
女娲智能体OS女娲智能体OS 是一个通用智能体操作系统平台,支持零代码 AI 智能体创建、工作流编排、RAG 知识库与多端发布,旨在为 AI 工具使用者提供开发、部署与管理智能体的能力。0440企业用户最近收录AI# RAG 知识库# 工作流自动化# 通用智能体
VoiceSculptorVoiceSculptor 是一个由 ASLP-lab 开源发布的指令驱动语音合成(Instruct TTS)系统,基于 LLaSA 与 CosyVoice2 支持自然语言描述控制音色、语速、音调、情感等属性,并可用于声音设计与语音合成任务。0410开源工具与社区最近收录AI# AI语音克隆
黄小仙来也一个基于人工智能与东方命理融合的在线 AI 八字分析与命理服务平台,提供八字排盘、深度报告、正缘画像、AI 命理助理和每日宜忌等功能。0300最近收录AI自然语言处理(NLP)# AI 命理分析平台
UI-TARS DesktopUI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM),可通过自然语言控制计算机界面,实现图形界面识别与操作。0360大模型开源工具与社区# 桌面 GUI Agent# 视觉语言模型(VLM)
Vidu AgentVidu 团队推出的 AI 视频创作智能体平台,通过“一键成片”技术与自动分镜编排,实现从视觉输入到成品输出的全流程视频生成,适用于广告、产品展示、短片与创意视频等多种场景。0430内容创作最近收录AI# AI分镜编辑# AI视频创作智能体平台# AI视频生成工具
01Agent面向内容创作者的一站式 AI 图文创作智能体平台,支持从智能选题、图文生成、视觉设计、智能排版到多平台发布的全流程自动化内容创作。0460内容创作最近收录AI# 01Agent# 01Editor# AI图文创作
NitroGen一个全新的视觉-动作基础模型(Vision-Action Foundation Model),由 NVIDIA 等机构联合研发并开源,专注于通用游戏智能体的学习与控制。0530大模型最近收录AI# AI游戏开发# AI视觉编码器
Runable一个基于人工智能的 创意生成与数字任务自动化平台,支持通过自然语言提示创建幻灯片、网站、报告、播客、图像、文档和视频等各类内容,帮助用户显著提升内容创作与工作效率。0510最近收录AI自主智能系统# AI 幻灯片生成# AI创意生成# AI报告撰写
MovieFlowMovieFlow 是一款基于人工智能的 全自动视频创作与影片生成平台,它能够将用户的故事描述、剧本或简单提示转化为完整的高质量视频作品。0500最近收录AI计算机视觉# AI 视频创作平台
Qwen-Image-Layered由 Qwen 团队开发的 图像分层 AI 模型,可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层,实现类似专业图像编辑软件的分层操作。0490大模型开源工具与社区# 图像分层模型
Step-GUI阶跃星辰团队发布的 开源 AI GUI Agent 系列模型与基础设施,覆盖其核心技术、架构、功能、应用场景、部署方法与常见问题。0880最近收录AI自主智能系统# 开放式 GUI Agent
GPT Image 1.5OpenAI 发布的最新图像生成与编辑 AI 模型,作为 ChatGPT Images 的核心引擎,它以 最高达 4× 更快的生成速度、更强的指令执行力、精细细节保留与创意转换能力 为特性,支持创意图像生成、照片编辑与视觉工作流自动化。0570内容创作大模型# AI图像生成模型# AI图像编辑模型# 文本生成图像
Seedance 1.5 Pro字节跳动 Seed 团队最新发布的 音视频联合生成 AI 模型。该模型具备专业级音画同步、高质量视频生成、复杂叙事理解与多模态输入支持,为内容创作者及 AI 工具使用者提供强大的短片和影视级视频创作能力。0570内容创作大模型# AI情感短片视频生成# AI视频生成# 音视频联合生成模型
万相2.6阿里通义万相最新发布的视频生成 AI 模型,支持文本/图像/参考视频多模态生成、多镜头叙事、角色扮演和原生音画同步,为 AI 工具使用者实现专业级短片创作与影视级内容自动化提供强大支持。0690大模型最近收录AI# AI数字人# AI虚拟角色# AI视频生成模型
DiscoGoogle 最新推出的实验性 AI 浏览体验,该工具由Gemini 3 大模型驱动,通过自动将浏览器标签页转化为交互式 Web 应用(称为 GenTabs),重新定义浏览器与 AI 协作体验。本文面向 AI 工具使用者详细介绍其核心功能、使用方式、优势与常见问题。0720最近收录AI自主智能系统# AI浏览器
Banana Slides一个基于 nano banana pro 强大模型的开源 AI PPT 生成工具,它如何通过自然语言驱动、文件解析与素材上传等机制实现高质量、定制化的演示文稿自动生成,适用于个人用户与开发者场景。本文系统梳理核心功能、技术架构、使用方法与常见问题。0850最近收录AI计算机视觉# AI PPT 生成工具
Claude-MemClaude-Mem 是一个专为 Claude Code 设计的开源持久记忆插件,通过自动捕获 AI 会话中的上下文、工具调用和观察,并将经 AI 压缩与结构化后的关键信息注入未来会话,实现跨会话记忆持续、语义搜索与自然语言历史检索等功能,大幅提升长期项目协作体验。0720开源工具与社区最近收录AI
Gemini TTSGemini TTS 是 Google 最新的文本转语音(Text-to-Speech)技术,通过 Gemini API 或 Google AI Studio 提供高质量、多语言、多角色语音合成服务。支持细粒度风格、语速、情绪与多语音输出控制,并可用于播客、课程、辅助工具与互动应用等场景。0620API与SDK内容创作# AI语音合成# 多语言支持# 文本转语音
Gemini Deep ResearchGemini Deep Research 是由 Google 发布的高级研究型 AI 代理,通过 Gemini API(Interactions API)支持复杂多步骤研究任务自动规划、搜索、阅读与综合,能够生成详尽的报告并融合 Web 与自有数据资源,是构建自动化智能研究、市场分析、竞争情报与长流程信息整合的利器。0730API与SDK最近收录AI# AI Agent
Qwen3-Omni-FlashQwen3-Omni-Flash 是阿里巴巴 Qwen 团队于 2025 年 12 月 1 日发布的下一代原生全模态(omni-modal)大模型,支持文本、图像、音频和视频等多种输入,并能实时流式输出文本与自然语音,具备高效多模态理解与交互能力,覆盖 119 种文本语言及多语言语音交互,实现真正无缝实时 AI 体验。0860内容创作大模型# AI语音助手# 多语言语音输出