// 01 BigSet 是什么

快速结论
BigSet 是 TinyFish 团队推出的开源工具,主打用一句自然语言描述,就让 AI 自动从互联网采集、结构化并定期刷新数据集。你描述想要什么数据,它自动推断表列、类型和主键,并并行调度多个网络代理上网搜索、验证,最后可导出 CSV / XLSX。以 AGPL-3.0 开源,需自备 TinyFish(搜索抓取)和 OpenRouter(大模型)的 API Key。国内可直连 GitHub(拉取建议配镜像),但依赖的两个外部服务需自行评估可用性。
适合谁优先使用
- 需要定期更新的结构化数据(竞品定价、招聘、行情)的运营 / 分析师
- 想免去手工爬虫 + 整理的增长、投研团队
- 懂点 Node 环境、能配 API Key 的人
- 做数据集自动化的开发者
核心能力拆解
自然语言建数据集
一句话描述需求即可。
AI 自动推断表结构
自动定列、类型和主键。
多 web agent 并行采集
并行调度多个代理上网搜索与验证。
定期自动刷新 + 导出
30 分钟到每周自动更新,导出 CSV / XLSX。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 自然语言自动建 + 刷新数据集 | BigSet | 要省去爬虫 + 整理 |
| 可视化爬虫 | 八爪鱼 / 后羿采集器 | 不想写代码、要图形界面 |
| 工程级爬取 | Scrapy / Playwright | 要完全可控、写代码 |
国内平替:通用采集用八爪鱼、后羿采集器;「自然语言 + agent 自动建集」的国内同类较少。
限制与避坑
- 需 Node.js 22+ 环境,开发还需 Docker
- 必须自备 TinyFish + OpenRouter 两个 API Key(有成本)
- AGPL-3.0,商用注意开源传染性
- 采集结果需核验,AI 验证非 100% 准确
典型工作流
建一个自动刷新的数据集
- 全局安装
npm install --global @adamexu/bigset - 运行
bigset - 配置 TinyFish 与 OpenRouter 的 API Key
- 用一句话描述想要的数据集
- AI 自动建表并上网采集、验证
- 设定刷新周期,按需导出 CSV / XLSX
常见问题
BigSet 是什么?
用自然语言让 AI 自动从全网采集、结构化并定期刷新数据集的开源工具。
免费吗?
本体开源免费,但需自备 TinyFish 和 OpenRouter 两个(可能付费的)API。
国内能用吗?
GitHub 可直连;两个外部 API 的国内可用性需自行评估。
要会编程吗?
需要基本的命令行操作和配置 API Key。
NavXD 使用建议
如果你长期被「定期更新某类结构化数据」折磨,BigSet 把爬取 + 整理 + 刷新串成一句话,很省事;但它要配两个外部 API、懂点命令行,且 AGPL 协议商用要留意,先小规模试跑再上正式流程。
// 02 核心 功能
- 核心定位快速结论 BigSet 是 TinyFish 团队推出的开源工具,主打用一句自然语言描述,就让 AI 自动从互 […]
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、自动化、数据集、web agent、数据采集。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 开源、自动化、数据集 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
BigSet 是什么?
快速结论 BigSet 是 TinyFish 团队推出的开源工具,主打用一句自然语言描述,就让 AI 自动从互 […]
BigSet 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 开源、自动化、数据集、web agent、数据采集 等标签。
BigSet 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
BigSet 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
