Stream‑OmniStream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合(文本、图像、语音)并生成文本和语音回应,具备边听边列文字中转、轻量训练与同声互动能力,是 AI 工具使用者构建多模态界面的优秀起点。03200开源工具与社区教育者与研究人员# AI聊天机器人# AI语音助手# 多模态聊天应用
SurveyForgeSurveyForge 是由 Alpha‑Innovator 推出的自动化学术综述生成框架,通过 outline heuristics 与 memory‑driven agent 实现高质量论文结构、引用准确、内容连贯,助力科研与 AI 工具用户高效写作。03160开源工具与社区教育者与研究人员# AI学术研究# AI文献综述# AI生成框架
PandaWiki一款由 AI 大模型驱动的开源知识库搭建系统,旨在帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。03150开源工具与社区最近收录AI# AI 辅助创作# AI 辅助搜索# AI 辅助问答
AnimaXAnimaX 是阿里巴巴 DAMO Academy 推出的最新文本驱动 3D 动画框架,利用视频扩散与骨架控制让静态模型动起来,适合 AI 工具使用者构建高质量 3D 动画。03140大模型开源工具与社区# 3D模型生成动画# AI 3D艺术制作# AI虚拟人物交互
Confucius3-MathConfucius3-Math 是由网易有道开源的 14B 参数数学专用大模型,通过强化学习优化,支持在消费级 GPU 上高性能推理,在高考、K‑12 等多项数学基准中排名领先,是教育 AI 工具开发者的首选模型。03140大模型开源工具与社区# 数学模型
Kyutai TTSKyutai TTS 是 Kyutai 团队首个实时流式文本转语音模型,支持英语和法语,具备声线克隆、超低延迟(约220ms)、长音频稳定输出与字级时间戳,可部署本地化、适配 LLM,对 AI 工具使用者极具吸引力。03130大模型开源工具与社区# AI声线克隆# 实时流式文本转语音模型# 文本转语音
FlowDirectorFlowDirector是一款无需训练的文本驱动视频编辑新框架,通过 ODE 流式演化实现高精度、时序一致的视频修改,具备局部可控与语义对齐优势,适合创作者和开发者快速文本编辑视频。03090开源工具与社区最近收录AI# AI短视频制作# AI视频编辑框架
PromptForgePromptForge 是一个开源 AI 提示工程工作台,支持多模型对比测试、系统化评估和版本控制,帮助 AI 工具使用者更高效地设计、调试和优化 prompts。03060开源工具与社区最近收录AI# 开源提示工程工作台
SongGenerationSongGeneration 是腾讯AILab开发的开源歌曲生成模型,基于 LeVo 架构与音乐编码器,可从歌词、风格描述与参考音频中并行生成和谐的“人声+伴奏”歌曲,支持中文与英文,适合 AI 工具使用者快速落地音乐创作。03000大模型开源工具与社区# AI音乐生成# 多语言支持
Kimi‑ResearcherKimi‑Researcher 是 Moonshot AI 推出的一款开源研究助手,基于 Kimi‑VL、Kimi‑Dev 与 Kimi‑Audio 模型,提供多模态文献阅读、代码生成与科研自动化能力,助力 AI 工具使用者提升研发效率与学术创新力。02990开源工具与社区最近收录AI# AI代码修复# AI代码生成# AI研究助手
NxtscapeNxtscape(原 Nxtscape,现称BrowserOS)是一款基于 Chromium 构建的开源 AI 浏览器,支持本地 AI Agent 自动化浏览器操作、语义搜索、ChatGPT 书签辅助,并兼容所有 Chrome 扩展,适合AI工具使用者在隐私安全环境中提升效率。02920开源工具与社区最近收录AI# AI Agent# 开源智能浏览平台
FurionFurion 是一个开源 .NET 应用开发框架,以“先知”命名,致力于简化 .NET 项目创建、API 构建、服务注入与结构设计,支持 .NET5–10+、双许可(Apache‑2.0/MIT)、低侵入、超轻依赖,帮助 AI 工具使用者快速搭建高性能后端服务。02890开源工具与社区最近收录AI# .NET框架
RoboBrain2.0RoboBrain 2.0 是北京智源研究院推出的开源多模态机器人“大脑”,融合视觉、语言与交互推理,支持 7B/32B 模型,对各种实体任务进行空间、时间规划与闭环反馈,适合 AI 工具使用者快速集成机器人认知能力。02850大模型开源工具与社区# 机器人视觉-语言大模型
MindOmniMindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。02840大模型开源工具与社区# 多模态大语言模型
EXAONE 4.0EXAONE 4.0 是 LG AI Research 发布的混合智能大模型,集通用理解与多步推理于一体,提供 32B 高性能与 1.2B 本地部署版本,支持工具调用与多语言,是 AI 工具使用者进行开发集成的核心资源。02810大模型开源工具与社区# 多语言支持# 混合模型
Higress MCPHigress MCP 是阿里巴巴开源的 AI 原生 API 网关,支持将 OpenAPI 接口一键转换为 Model Context Protocol (MCP) 服务,提供跨模型统一调用、多模型负载均衡、细粒度认证及审计日志,助力 AI 工具使用者高效接入实际业务系统。02810API与SDK开源工具与社区# MCP插件
MiniMax‑M1MiniMax‑M1 是全球首个开放参数混合注意力大模型,拥有 4.56 e11 参数、1 百万 token 上下文长度和高效强化学习训练机制,擅长数学、编程、长上下文理解和复杂推理任务。02800免费AI工具大模型# 大模型
VuiVui——一款轻量级、轻量级语音对话模型(Lightweight Voice Dialogue Model),具备上下文感知与声纹克隆能力的开源 on‑device 模型。02730开源工具与社区最近收录AI# AI个人助理# AI声音克隆# AI多角色对话
Gemini CLIGemini CLI 是 Google 发布的开源 AI 终端代理,通过将 Gemini 2.5 Pro 引入命令行,让开发者无需切换环境即可编写代码、调试、生成内容和执行任务,支持 Model Context Protocol、搜索集成与脚本自动化,个人账户即可免费获得 60 次/分钟、1 000 次/天额度,是开发效率的强力提升工具。02720免费AI工具开源工具与社区# AI代码辅助# AI内容创作# AI终端代理
FireplexityFireplexity是由Firecrawl推出的开源 AI 问答引擎,通过实时网页抓取、流式生成与引用标注,为 AI 工具使用者提供可部署、可定制的答案系统替代方案。02710开源工具与社区最近收录AI# AI问答引擎
ClaudiaClaudia 是一款由 Asterisk(YC 支持团队)开发的开源桌面 GUI 工具,专为 Anthropic 的 Claude Code 设计,集成会话管理、Agent 生产、自定义代理、多模态支持、使用分析和版本检查点,是开发者与 AI 协作的终极“指挥中心”。02630开源工具与社区自主智能系统# AI Agent# AI桌面应用
AI-Media2Doc一款开源的 AI 图文创作助手,能够将音频和视频内容一键转换为多种风格的文档,如小红书笔记、微信公众号文章、知识笔记、思维导图等。02560开源工具与社区最近收录AI# Ai图文创作助手
DecipherIt一个受 Google NotebookLM 启发的开源 AI 研究助手,旨在帮助研究人员、学生和专业人士高效地探索、分析和整合来自网络的多种信息源。02550开源工具与社区最近收录AI# AI思维导图# AI生成摘要# AI研究助手
EmbodiedGenEmbodiedGen 是由 Horizon Robotics 提出的开源 3D 生成工具,支持多模态资产(图像、文本、布局)生成具实体感的 3D 交互环境,适合机器人训练、仿真与生成式 AI 研究者使用。02510开源工具与社区最近收录AI# AI 纹理生成# 图像生成3D# 文本生成3D
PreenCutPreenCut 是一款开源 AI 视频检索与剪辑工具,支持语音识别(WhisperX)、LLM 分析、自然语言查询与批量处理,为 AI 工具使用者提供高效精准的视频片段检索和剪辑能力。02410开源工具与社区数据分析与预测# AI段落标注# AI视频剪辑工具# AI视频检索工具
PlayDiffusionPlay AI 公司推出的开源音频编辑模型,基于先进的扩散模型(diffusion model)构建,专注于提供高效的音频精细编辑与修复功能。02370大模型开源工具与社区# AI配音# AI音频编辑模型# 播客制作
Ring-liteRing-lite 是 InclusionAI 开源的轻量级 MoE 大语言模型(16.8B 参数、2.75B 激活参数),通过 C3PO 强化学习优化跨领域推理性能,高效对标甚至超过主流小体量推理模型。02350免费AI工具大模型# 大语言模型
DeepSeek R1T2DeepSeek R1T2 Chimera 是 TNG Technology Consulting 基于 Assembly‑of‑Experts 方法打造的 Tri‑Mind 混合型 LLM,兼顾高推理能力、低延迟与开放开源,适合 AI 工具使用者在本地部署高效问答与生成任务。02340大模型开源工具与社区# AI问答机器人# 混合式大语言模型
Goedel‑Prover‑V2Goedel‑Prover‑V2 是一款开源自动化定理证明模型系列,通过专家迭代、自我修正与模型平均三项创新,实现 8B 和 32B 版本在自动形式化证明任务中的全新 SOTA,适合 AI 工具使用者用于数学推理和 Agent 集成。02310大模型开源工具与社区# 定理证明模型
Reor一款开源、私有化运行的 AI个人知识管理 工具,支持本地模型推理、自动笔记关联、语义搜索与写作辅助,打造高效、安全的第二大脑。本文从功能介绍、使用指南、技术揭秘、应用场景与常见问题全面剖析,助力 AI 工具使用者实现个性化知识管理升级。02260开源工具与社区最近收录AI# AI# AI个人知识管理工具# Local models
Qwen3 Reranker阿里云通义千问团队于 2025 年 6 月发布的开源文本重排序(Reranking)模型,作为 Qwen3 Embedding 系列的一部分。02120大模型开源工具与社区# AI信息检索# 多语言支持# 模型
RAG‑AnythingRAG‑Anything 是由 HKUDS 团队开发的开源多模态 RAG 系统,实现 PDF、Excel、图像、公式等格式的文档解析、知识图谱构建和智能问答,适用于 AI 工具使用者构建跨类型检索增强生成应用。02080开源工具与社区最近收录AI# AI知识图谱构建# 一体化 RAG 系统# 多模态内容分析
Office‑PowerPoint‑MCP‑ServerOffice‑PowerPoint‑MCP‑Server 是一个开源的 MCP(Model Context Protocol)服务器,利用 python‑pptx 实现 AI 对 PowerPoint 幻灯片的自动创建与编辑,通过自然语言提升报告与演示生成效率,是 AI 工具使用者的智能演示助手。02070开源工具与社区自主智能系统# ai ppt# AI 自然语言指令# MCP
Observer AIObserver AI 是一款开源可本地运行的 AI 观察者 平台,支持屏幕监控、脚本自动化、视觉识别与通知触发,适用于需要隐私保护和自定义 Agent 的开发者与电力自动化爱好者。02030开源工具与社区最近收录AI# AI Agent# AI屏幕内容抓取# AI截图
Self ForcingSelf Forcing 是一项由 Adobe Research 与 UT Austin 联合提出的前馈训练策略,用于自主回归视频生成模型,解决训练与推理不一致问题,实现单 RTX 4090 实时流式 480p 视频生成,适合 AI 工具使用者提升视频生成效率。02020开源工具与社区最近收录AI
MAGREFMAGREF是一款先进的 视频生成框架,通过“Masked Guidance”实现多参考图像与文本提示驱动的视频合成,支持目标一致性、动态遮罩与像素级特征融合,助力研究者和开发者探索高质量、多主体视频生成新路径。01990开源工具与社区最近收录AI# AI电影人物合成# AI短视频生成# AI虚拟角色互动
Dive3DDive3D 是一项由北京大学与小红书合作开发的文本转 3D 生成框架,创新性引入 Score Implicit Matching (SIM) 损失,显著提升生成多样性与视觉真实度,适合 AI 工具使用者与研究者探索前沿 3D 内容制作。01960开源工具与社区最近收录AI# AI 3D模型生成工具# AI文本生成 3D 内容系统
子曰3(Confucius3‑Math)子曰3(Confucius3‑Math)是网易有道开源的 14B 数学大模型,专注 K‑12 教育,具备高考题 98.5 分实力,可在 RTX 4090 D 单卡上运行,服务成本仅 0.15 美元/百万 tokens,性价比极高。01890大模型开源工具与社区# AI数学辅导工具# K‑12 数学教育# 数学推理大模型
OmniGen2OmniGen2 是由 VectorSpaceLab 发布的开源多模态生成模型,通过双路径解码架构支持文本生成、图像合成、图像编辑和上下文驱动的视觉生成,适合 AI 工具使用者构建统一视觉应用。01820开源工具与社区最近收录AI# 多模态生成模型
ThinkChainThinkChain 是一款整合 Claude 的 工具反馈循环与 interleaved thinking 框架,基于 MCP 协议支持多工具链调用,提升 AI 在执行任务时“思考—行动—再思考”的能力,适用开发者与自动化爱好者。01790开源工具与社区最近收录AI# AI 工具链框架
GitDiagram一款由 Ahmed Khaleel 开发的开源工具,可以瞬间把任何 GitHub 仓库转化为交互式结构图,让你快速可视化整个项目架构与模块组织。01550API与SDK开源工具与社区# AI项目可视化# LLM 驱动结构解析# 组件组合架构
GLM-TTSGLM-TTS 是一款由 Zhipu AI 开源的工业级 文本转语音(TTS) 系统,支持零样本音色克隆、情感表达控制与流式生成。它采用双阶段架构与多奖励强化学习,可实现高质量自然语音合成,适用于语音助手、有声读物、客服、教育等多种场景。01440内容创作开源工具与社区# AI有声读物# AI语音克隆# 文本转语音(TTS)