// 01 Page Agent 是什么

快速结论
Page Agent(阿里巴巴开源)是一个用 JavaScript 实现的"页内 GUI Agent",核心是用自然语言直接控制网页界面。它在页面内运行,理解并操作网页上的图形界面元素,把"用一句话指挥网页去做事"变成可落地的能力。TypeScript 实现、MIT 协议,GitHub 约 2.33 万星(截至 2026-07)。
适合谁优先使用
- 想给自己网页/应用加"自然语言操控界面"能力的前端与产品团队
- 做网页自动化、RPA、智能助手的开发者
- 希望 Agent 直接在页面内运行、而非另起浏览器/无头环境的场景
- 想要开源、可集成到现有 Web 项目的方案
核心能力拆解
页内运行的 GUI Agent
用 JavaScript 直接在网页内运行,理解并操作页面 GUI,无需另起独立浏览器进程。
自然语言控制界面
用自然语言指令驱动网页操作,把复杂的界面动作变成"说一句话"。
开源可集成
TypeScript 实现、MIT 协议,便于集成进现有 Web 前端项目(具体 API 与用法以仓库文档为准,待核实)。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 在网页内、用自然语言操控 GUI | Page Agent | 页内 JS 运行 + 自然语言 + 开源 |
| 跨站、后台自动化 | Playwright / 浏览器 Agent | 要独立浏览器、无头/跨域 |
| 共享登录态给 Agent 操作 | Agent 专用浏览器 | 要复用登录、隔离工作区 |
限制与避坑
- 面向开发者、需集成到网页项目中,非终端用户直接可用的产品。
- 页内 Agent 的能力边界、安全与权限,需结合你自己的页面评估。
- 具体 API、模型对接方式以 GitHub 当前文档为准(待核实)。
NavXD 使用建议
如果你要给自己的网页/后台加"用自然语言操作界面"的能力,又不想另起浏览器/无头环境,Page Agent 这种"页内 GUI Agent"很对路,先在一个具体页面上试集成。要做跨站、后台批量自动化,则用浏览器级方案。
常见问题
- Page Agent 免费吗?开源、MIT 协议,免费可商用(以仓库许可为准)。
- 它和浏览器 Agent 有啥区别?它在网页内以 JS 运行、操作当前页 GUI,不是另起一个浏览器。
- 谁做的?阿里巴巴开源。

// 02 核心 功能
- 核心定位阿里开源的页内 GUI Agent:用自然语言直接操控网页界面,TypeScript+MIT,2.3万★。
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 AI Agent、开源、GUI Agent、阿里巴巴、网页自动化。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 AI Agent、开源、GUI Agent 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
Page Agent 是什么?
阿里开源的页内 GUI Agent:用自然语言直接操控网页界面,TypeScript+MIT,2.3万★。
Page Agent 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 AI Agent、开源、GUI Agent、阿里巴巴、网页自动化 等标签。
Page Agent 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Page Agent 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
