【实测】Google AI Edge Gallery:手机端 Gemma 4 离线部署、Agent Skills 架构解析与已知问题汇总
Google 在 4 月 2 日发布的 AI Edge Gallery 应用里有一个技术点值得单独拆解Agent Skills 是怎么在消费级手机上完全离线跑起来的。这篇文章从模型、函数调用、系统提示三层分析它的实现链路。一、Gemma 4 模型规格Gemma 4 系列共 4 个变体Edge Gallery 手机端运行的是前两个模型参数架构上下文窗口Gemma 4 E2B2B 有效参数Dense128KGemma 4 E4B4B 有效参数Dense128KGemma 4 26B A4B26B 总参/3.8B 激活MoE128 专家/8 激活256KGemma 4 31B31BDense256K手机端模型支持文本、图像、视频输入E2B/E4B 还支持音频。所有模型基于 Apache 2.0 协议。硬件要求iOSiOS 17.0iPhone 15 Pro 及以上AndroidAndroid 126 GB RAM 以上macOSmacOS 14.0M1 芯片二、Agent Skills 的实现链路Agent Skills 不是独立的执行引擎而是建立在三个基础能力之上1. 模型层Function Calling 原生支持Gemma 4 E 系列原生支持函数调用。这意味着模型可以输出结构化的工具调用请求而不是纯自然语言响应。类似 OpenAI 的tool_calls格式但在端侧完全自主执行。2. 系统提示层Skill 描述注入应用启动时会把可用的 skill 列表以「名称 描述 参数 schema」的形式追加到系统提示中。示例结构You have access to the following skills: 1. search_wikipedia(query: string) Search Wikipedia for factual information about a topic. 2. generate_qr_code(content: string, size: int) Generate a QR code image from the given content. 3. draft_email(to: string, subject: string, body: string) Draft an email (does not send, only prepares for user review). When the users request matches a skill, respond with a tool call in the following format: tool_call {name: search_wikipedia, parameters: {query: Gemma 4}} /tool_call3. 执行层本地调度器App 内置的调度器接收模型输出的tool_call结构解析后执行本地函数或调用系统 API再把结果拼回上下文让模型继续推理。整个链路的关键是模型不直接执行代码只输出意图所有执行都由本地 runtime 完成。这是安全性和性能的折衷。三、内置的 5 个功能模块AI Chat提供多轮对话支持「思维模式」展示模型的推理步骤。对调试 prompt 有直接价值。Ask Image调用设备摄像头或相册做视觉分析覆盖 OCR、图表理解、物体识别三类任务。Audio Scribe实现离线语音转文字和翻译。完全不走云端。Agent Skills即上面拆解的部分内置能力包括Wikipedia 检索、地图导航、QR 码生成、数据可视化、邮件草稿、图片配乐。支持从 URL 加载自定义 skill。Prompt Lab是开发者向沙箱用于对比不同模型和配置的效果。四、已知性能问题不回避从公开测试和社区反馈看当前版本存在几个工程问题推理性能E4B 在 RTX 4090 上的推理速度约为 9 tokens/sec远低于同参数级别的开源模型。根因是 Gemma 4 使用的异构注意力头维度导致 vLLM 禁用了 FlashAttention回退到 Triton 内核。这是模型架构与推理框架的适配问题预期会在后续版本修复。上下文内存256K 上下文窗口所需的 KV cache 远高于同级模型。在手机端即便跑 E2B 也会感到内存压力。体验层每次从主界面返回对话都要重新加载模型iPad 布局未适配长上下文出现幻觉频率偏高。兼容性无法在 Turing 架构 GPUSM 7.5上运行macOS 加载 31B/26B 时会崩溃。五、技术意义抛开性能细节Agent Skills 在消费级端侧首次跑通了一个完整的工作流自然语言意图 → Function Calling 结构化输出 → 本地 runtime 执行 → 结果回注上下文 → 继续推理这个链路以前只在云端OpenAI/Claude API 的 tool use存在。端侧打通意味着一类新场景成为可能需要隐私保护的本地文档处理、无网络环境的工具协同、对延迟敏感的交互任务。模型层面还有优化空间。架构层面的路径已经通了。参考资料Gemma 4 官方发布blog.google/innovation-and-ai/technology/developers-tools/gemma-4Agent Skills 技术博客developers.googleblog.comAI Edge Gallery GitHubgithub.com/google-ai-edge/gallery