当前浏览中
频道AI Agent / 智能体
浏览量0
▸ AI Agent / 智能体 · 应用工具

Page Agent 应用工具

阿里开源的页内 GUI Agent:用自然语言直接操控网页界面,TypeScript+MIT,2.3万★。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · 中文/多语言
GitHub收藏 0
收录 2026年7月5日更新 2026年7月5日浏览 0

// 01 Page Agent 是什么

Page Agent 界面截图
Page Agent · 界面预览

快速结论

Page Agent(阿里巴巴开源)是一个用 JavaScript 实现的"页内 GUI Agent",核心是用自然语言直接控制网页界面。它在页面内运行,理解并操作网页上的图形界面元素,把"用一句话指挥网页去做事"变成可落地的能力。TypeScript 实现、MIT 协议,GitHub 约 2.33 万星(截至 2026-07)。

适合谁优先使用

  • 想给自己网页/应用加"自然语言操控界面"能力的前端与产品团队
  • 做网页自动化、RPA、智能助手的开发者
  • 希望 Agent 直接在页面内运行、而非另起浏览器/无头环境的场景
  • 想要开源、可集成到现有 Web 项目的方案

核心能力拆解

页内运行的 GUI Agent

用 JavaScript 直接在网页内运行,理解并操作页面 GUI,无需另起独立浏览器进程。

自然语言控制界面

用自然语言指令驱动网页操作,把复杂的界面动作变成"说一句话"。

开源可集成

TypeScript 实现、MIT 协议,便于集成进现有 Web 前端项目(具体 API 与用法以仓库文档为准,待核实)。

和同类工具怎么选

需求优先考虑判断标准
在网页内、用自然语言操控 GUIPage Agent页内 JS 运行 + 自然语言 + 开源
跨站、后台自动化Playwright / 浏览器 Agent要独立浏览器、无头/跨域
共享登录态给 Agent 操作Agent 专用浏览器要复用登录、隔离工作区

限制与避坑

  • 面向开发者、需集成到网页项目中,非终端用户直接可用的产品。
  • 页内 Agent 的能力边界、安全与权限,需结合你自己的页面评估。
  • 具体 API、模型对接方式以 GitHub 当前文档为准(待核实)。

NavXD 使用建议

如果你要给自己的网页/后台加"用自然语言操作界面"的能力,又不想另起浏览器/无头环境,Page Agent 这种"页内 GUI Agent"很对路,先在一个具体页面上试集成。要做跨站、后台批量自动化,则用浏览器级方案。

常见问题

  • Page Agent 免费吗?开源、MIT 协议,免费可商用(以仓库许可为准)。
  • 它和浏览器 Agent 有啥区别?它在网页内以 JS 运行、操作当前页 GUI,不是另起一个浏览器。
  • 谁做的?阿里巴巴开源。
赞助广告

// 02 核心 功能

  • 核心定位阿里开源的页内 GUI Agent:用自然语言直接操控网页界面,TypeScript+MIT,2.3万★。
  • 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
  • 能力标签关联标签包括 AI Agent、开源、GUI Agent、阿里巴巴、网页自动化。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 AI Agent、开源、GUI Agent 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

Page Agent 是什么?
阿里开源的页内 GUI Agent:用自然语言直接操控网页界面,TypeScript+MIT,2.3万★。
Page Agent 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 AI Agent、开源、GUI Agent、阿里巴巴、网页自动化 等标签。
Page Agent 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Page Agent 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI Agent / 智能体 全部