WF-PROC工作流

PokeClaw

让 AI 直接“看懂屏幕并操作手机”,通过自然语言指令替代多步骤手动操作,从而降低手机使用复杂度。

01

概述

项目来源

PokeClaw(又称 PocketClaw)是一个开源 Android AI 手机自动化代理项目,由 agents-io 社区在 GitHub 上发布并持续维护,采用 Apache 2.0 开源协议。

该项目的定位并不是传统意义上的语音助手,而是一个“可执行任务的手机 AI Agent”,核心目标是让大模型具备直接操作手机界面的能力,实现从“对话”到“执行”的闭环。

从公开仓库信息来看,该项目最初作为实验性原型快速构建,用于验证本地端侧大模型(如 Gemma 系列)在移动设备上进行 UI 操控的可行性。

它解决的问题

智能手机虽然功能强大,但大多数操作仍依赖用户手动点击完成,例如发消息、查信息、切换应用等。

PokeClaw 的核心思路是让 AI 直接“看懂屏幕并操作手机”,通过自然语言指令替代多步骤手动操作,从而降低手机使用复杂度。

它主要面向三类需求:自动化操作、隐私敏感场景以及移动端 AI Agent 研究实验。

核心能力

根据 GitHub README 与技术说明,该项目具备以下关键能力:

  • 本地 AI 运行:支持在设备端运行 Gemma 模型,实现离线推理与控制
  • 手机 UI 自动化控制:基于 Android 无障碍服务读取屏幕结构并执行点击、输入、滑动等操作
  • 多模型支持:除本地模型外,也支持 OpenAI、Anthropic 等云端模型增强推理能力
  • 任务型 Agent 系统:通过自然语言拆解多步骤任务,例如“打开微信并发送消息”

在技术架构上,它结合了本地推理 + UI 状态感知 + 行为执行三部分,形成完整的“感知-决策-执行”循环。

如何使用

PokeClaw 提供 APK 安装与开发者运行两种方式:

  1. 从 GitHub Releases 下载 APK 安装到 Android 设备
  2. 安装后开启无障碍服务与必要权限(用于屏幕读取与操作)
  3. 选择运行模式:本地模式(无需 API)或云端模式(需配置 API Key)
  4. 输入自然语言指令,例如“给联系人发送一条消息”
  5. AI 自动解析屏幕并执行操作流程

部分高级功能(如技能系统或自动回复)需要额外配置工作流规则。

典型使用场景

  • 消息自动处理:自动读取聊天内容并生成回复,例如 WhatsApp 自动回信
  • 手机操作辅助:通过语音或文本控制复杂操作,如打开设置、调整系统参数
  • 开发与测试工具:用于 UI 自动化测试与 Agent 行为研究

与同类项目的差异

与传统自动化工具(如 Tasker)相比,PokeClaw 最大的区别是引入了大模型推理能力,使系统可以理解“模糊自然语言指令”,而不是依赖固定规则流程。

与云端 AI 助手相比,它强调本地优先执行,数据可以完全不离开设备,适合隐私敏感场景。

同时,它也比纯对话型 AI 更进一步,具备实际“操作手机”的能力,而不是仅提供建议或回答。

价格与使用成本

项目本身完全开源免费,但运行成本取决于使用模式:

本地模式需要较高硬件配置(建议 8GB 以上内存设备),云端模式则需要额外 API 调用费用。

优势与局限

PokeClaw 的优势在于首次将“本地大模型 + 手机操作系统控制”结合,提供了完整的移动端 AI Agent 实验框架,同时具备较强的隐私保护能力。

但它仍处于早期原型阶段,在任务稳定性、复杂操作成功率以及设备兼容性方面存在明显限制,对普通用户来说上手门槛较高。

整体来看,PokeClaw 更适合作为 AI Agent 与移动自动化方向的研究型项目,而非成熟消费级应用。

AI大学堂