WF-PROC工作流

PokeClaw

让 AI 直接“看懂屏幕并操作手机”，通过自然语言指令替代多步骤手动操作，从而降低手机使用复杂度。

概述

PokeClaw（又称 PocketClaw）是一个开源 Android AI 手机自动化代理项目，由 agents-io 社区在 GitHub 上发布并持续维护，采用 Apache 2.0 开源协议。

该项目的定位并不是传统意义上的语音助手，而是一个“可执行任务的手机 AI Agent”，核心目标是让大模型具备直接操作手机界面的能力，实现从“对话”到“执行”的闭环。

从公开仓库信息来看，该项目最初作为实验性原型快速构建，用于验证本地端侧大模型（如 Gemma 系列）在移动设备上进行 UI 操控的可行性。

智能手机虽然功能强大，但大多数操作仍依赖用户手动点击完成，例如发消息、查信息、切换应用等。

PokeClaw 的核心思路是让 AI 直接“看懂屏幕并操作手机”，通过自然语言指令替代多步骤手动操作，从而降低手机使用复杂度。

它主要面向三类需求：自动化操作、隐私敏感场景以及移动端 AI Agent 研究实验。

根据 GitHub README 与技术说明，该项目具备以下关键能力：

在技术架构上，它结合了本地推理 + UI 状态感知 + 行为执行三部分，形成完整的“感知-决策-执行”循环。

PokeClaw 提供 APK 安装与开发者运行两种方式：

部分高级功能（如技能系统或自动回复）需要额外配置工作流规则。

与传统自动化工具（如 Tasker）相比，PokeClaw 最大的区别是引入了大模型推理能力，使系统可以理解“模糊自然语言指令”，而不是依赖固定规则流程。

与云端 AI 助手相比，它强调本地优先执行，数据可以完全不离开设备，适合隐私敏感场景。

同时，它也比纯对话型 AI 更进一步，具备实际“操作手机”的能力，而不是仅提供建议或回答。

项目本身完全开源免费，但运行成本取决于使用模式：

本地模式需要较高硬件配置（建议 8GB 以上内存设备），云端模式则需要额外 API 调用费用。

PokeClaw 的优势在于首次将“本地大模型 + 手机操作系统控制”结合，提供了完整的移动端 AI Agent 实验框架，同时具备较强的隐私保护能力。

但它仍处于早期原型阶段，在任务稳定性、复杂操作成功率以及设备兼容性方面存在明显限制，对普通用户来说上手门槛较高。

整体来看，PokeClaw 更适合作为 AI Agent 与移动自动化方向的研究型项目，而非成熟消费级应用。