// 01 SearchClaw 是什么
来自人大信息检索团队的自托管深度研究智能体
SearchClaw 来自 RUC-NLPIR,也就是中国人民大学高瓴人工智能学院下的信息检索与自然语言处理研究团队。项目 GitHub 仓库将它定义为一个 agentic web research tool,核心用途是自动搜索、阅读网页、检索论文和新闻,并生成带来源链接的研究型答案。它不是普通搜索引擎,也不是单轮联网问答插件,而是一个可本地运行的深度研究 Agent。
从背景看,RUC-NLPIR 长期关注信息检索、RAG、搜索评测和自然语言处理,团队此前也维护过 FlashRAG、DeepAgent 等相关开源项目。SearchClaw 更像是把这些检索与 Agent 工程经验落到一个可运行工具里,面向研究人员、分析师、学生、内容编辑、企业调研人员和需要可追溯资料来源的知识工作者。
它解决的问题
普通 AI 搜索工具常见的问题是信息来源不够透明、引用数量不足、搜索过程不可控,遇到复杂问题时容易只做浅层总结。SearchClaw 的重点是把“查资料”做成一个多轮闭环:先拆解问题,再搜索不同来源,读取网页内容,必要时追问用户,最后通过质量门禁检查引用数量、来源多样性和回答完整度。
这种设计适合资料密集型任务。比如做竞品分析、政策研究、技术选型、论文综述时,用户真正需要的不是一句概括,而是能追溯来源、能覆盖多角度、能在信息不足时继续补查的研究报告。
核心能力
- 提供本地 Web UI,通过 FastAPI 服务在浏览器中访问,用户输入问题后由 Agent 自动执行研究流程。
- 支持多源搜索,包括 Google via Serper、Semantic Scholar、DBLP、arXiv、NewsAPI、Google News RSS 和微信文章搜索。
- 内置 research plan 工具,可把复杂问题拆解成可跟踪的子任务。
- 内置质量门禁 hooks,用于检查引用数量、来源多样性和回答完整度,不达标时会继续研究。
- 支持 Playwright 或 CDP 浏览器集成,可处理 JS 渲染页面或需要登录态的内容。
- 支持上下文压缩,适合长时间、多轮研究会话。
- 具备持久记忆系统,可跨会话保存来源偏好、用户偏好和关键事实。
- 通过 litellm 支持 Anthropic、OpenAI、Google Gemini、xAI、Qwen、Doubao、GLM、Moonshot 等模型,也可接入 vLLM、Ollama 或 OpenAI-compatible 本地端点。
如何使用
SearchClaw 是开源自托管工具,不是直接注册使用的云端 SaaS。官方 README 要求 Python 3.11 及以上环境。用户需要克隆 GitHub 仓库,安装依赖,配置至少一个 LLM API Key,再启动本地服务。为了获得更好的搜索和网页读取效果,官方建议配置 SERPER_API_KEY 和 JINA_API_KEY;如果没有这些服务,系统也会降级到 DuckDuckGo 抓取和直接 HTTP 请求。
- 从 GitHub 克隆 RUC-NLPIR/SearchClaw 仓库。
- 进入项目目录,执行 pip install -e . 安装基础依赖。
- 如需浏览器抓取能力,可执行 pip install -e '.[browser]' 并安装 Chromium。
- 配置 ANTHROPIC_API_KEY 或 OPENAI_API_KEY 等模型密钥。
- 按需配置 SERPER_API_KEY、JINA_API_KEY、NEWSAPI_KEY。
- 运行 python -m src.main,并在浏览器打开本地 8000 端口使用。
典型使用场景
在学术综述场景中,SearchClaw 可以围绕一个研究问题检索 arXiv、Semantic Scholar 和 DBLP,读取论文摘要与网页内容,整理出带引用的领域进展。它适合做初步综述和线索收集,但最终结论仍需要研究者复核原文。
在市场和竞品研究中,它可以同时搜索新闻、官网、博客和微信文章,帮助用户整理某家公司、产品或技术路线的近期动态。相比人工逐页搜索,它更适合做第一轮资料覆盖。
在政策、法规和技术选型中,SearchClaw 的多源引用和质量门禁很有价值。用户可以要求它比较多个框架、整理官方文档和社区讨论,并生成可追溯的分析报告。
与同类工具的差异
SearchClaw 与 Perplexity、ChatGPT Deep Research 这类云端产品的最大差异,是自托管和可改造。云端产品上手更容易,但搜索策略、引用门禁、记忆和工具链通常不可完全控制;SearchClaw 则允许用户在本地修改配置、模型、搜索源和质量 hooks。
它与普通 RAG 框架也不同。RAG 更偏“给定资料库后检索回答”,SearchClaw 更强调开放网络研究、动态搜索、网页读取、论文检索和多轮补查。因此,如果用户需要的是自动化调研流程,而不是单一知识库问答,SearchClaw 更匹配。
价格与真实局限
SearchClaw 本身采用 MIT License 开源,没有公开商业订阅价格。实际成本主要来自模型 API、搜索 API、网页抓取服务和本地部署资源。如果使用本地模型和免费搜索源,成本可以降低,但搜索质量、速度和稳定性也可能受到影响。
它的优势是开源、自托管、来源可追溯、多源覆盖和质量门禁明确,适合认真做研究型问答的人。局限也很清楚:部署门槛高于普通网页工具,搜索结果仍依赖外部服务质量,微信、登录态页面和动态网页抓取可能受环境影响。对于只想快速问一句的人,它偏重;对于需要可验证研究报告、愿意配置本地环境的用户,它更值得评估。
// 02 核心 功能
- 核心定位自动搜索、阅读网页、检索论文和新闻,并生成带来源链接的研究型答案。
- 分类索引当前归档在 最近收录AI、AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 自然语言处理、信息检索、搜索评测。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 最近收录AI、AI Agent / 智能体 定位和 自然语言处理、信息检索、搜索评测 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
