用 Rokid Glasses 实现“看一眼就知道卡路里“——卡路里识别智能体开发实践
一、为什么做这个智能体减肥、健身、控糖……这些目标背后有一个共同的痛点不知道自己吃了多少卡路里。传统的解决方案是打开手机 App手动搜索食物、输入克数繁琐且容易放弃。而 Rokid Glasses 提供了一个更自然的交互方式——抬头看一眼直接问。乐奇这碗饭有多少卡路里眼镜拍照、识别、播报整个过程不超过 10 秒。这就是我想做的东西一个戴着眼镜就能随时查卡路里的 AI 智能体。Rokid Glasses 本身已经内置了拍摄、翻译、导航、支付等功能但在健康饮食这个垂直场景上是空白的正好是一个值得填补的切入点。二、整体方案设计智能体的核心能力只有一个拍照 → 识别食物 → 返回卡路里和营养信息。但要做好这件事需要解决几个问题视觉理解必须选支持图像输入的多模态大模型回复简洁眼镜屏幕小、语音播报不能太长输出要精炼响应速度避免用户等待超过 10 秒体验才流畅工作流编排通过灵珠平台的工作流把拍照输入、模型推理、格式化输出串联起来开发平台选择灵珠 AI 平台https://rizon.rokid.com它深度集成了 Rokid Glasses 硬件能力无需写代码即可完成智能体的搭建和发布。三、开发过程3.1 创建智能体登录灵珠平台后点击左上角的⊕按钮新建智能体。填写基本信息名称卡路里识别助手功能介绍拍摄食物智能识别卡路里和营养成分帮你轻松管理饮食热量图标上传一个食物相关的图标上架审核必须项创建完成后会直接进入智能体编排页面分为左侧人设配置、中间技能配置、右侧预览调试三个区域。3.2 选择插件在技能面板中点击插件区域的图标为智能体添加能力扩展。卡路里识别的核心是图像理解灵珠平台内置了拍照能力组件直接添加即可。这个组件会让智能体在对话时具备调起眼镜摄像头拍照的能力。3.3 编写人设与提示词人设是智能体行为的核心约束。在人设与回复逻辑面板中我编写了如下提示词# 角色 你是一个专业的营养师助手能够通过图片识别食物并提供卡路里信息。 # 任务 当用户提供食物图片时 1. 识别图片中的食物名称 2. 估算食物的分量克数 3. 给出该食物的卡路里千卡 4. 给出主要营养成分蛋白质、脂肪、碳水化合物 # 回复格式严格遵守 食物[食物名称] 分量约 [X] 克 热量[X] 千卡 营养蛋白质 [X]g | 脂肪 [X]g | 碳水 [X]g # 注意 - 回复控制在 50 字以内适合语音播报 - 如果图片不清晰请提示用户重新拍摄 - 不要添加多余的建议和说明提示词中明确了输出格式这一点非常关键。眼镜端的显示空间有限如果模型自由发挥输出一大段文字用户体验会很差。3.4 搭建工作流为了让识别流程更可控我在智能体中绑定了一个工作流把整个处理链路显式化。创建工作流在灵珠平台的工作流模块新建一个工作流命名为食物卡路里识别流。接入大模型节点工作流的核心是大模型节点。这里选择了Doubao-Seed-1.6-Vision原因支持图像输入多模态这是识别食物的前提支持 Function Call方便后续扩展插件能力响应速度快符合眼镜端的实时交互需求DeepSeek-V3 虽然能力强但它是纯文本模型无法处理图片不适合这个场景。配置提示词节点在大模型节点中配置系统提示词与智能体人设保持一致同时在用户输入中引用图像变量{{image}}确保拍照内容能正确传入模型。工作流整体概览完整的工作流节点链路开始 → 图像输入 → 大模型识别 → 格式化输出 → 结束3.5 配置开场白开场白是用户打开智能体时看到的第一句话也是引导用户行为的关键。开场白对着食物拍一张照片我来告诉你有多少卡路里 预置问题 - 帮我看看这个食物有多少卡路里 - 这顿饭大概有多少热量 - 这个零食能吃吗3.6 预览调试配置完成后在右侧预览与调试面板进行测试。上传几张食物图片验证效果一碗白米饭 → 识别正确热量约 232 千卡一个汉堡 → 识别正确热量约 450 千卡一盘炒青菜 → 识别正确热量约 80 千卡响应时间稳定在 5 秒以内符合上架要求 30 秒。3.7 发布提审调试通过后点击右上角提审按钮填写上架信息提交审核。审核通过后用户可以在 Rokid AI APP 的 Agent Store 中找到并使用这个智能体。四、踩过的坑坑1模型选错了最开始选了 DeepSeek-V3发现图片根本传不进去模型只能看到文字描述。换成 Doubao-Seed-1.6-Vision 后立刻解决。选模型时一定要确认是否支持多模态输入。坑2输出太长初版提示词没有限制字数模型会输出一大段营养建议在眼镜端显示非常难看。加上回复控制在 50 字以内的约束后输出变得干净利落。坑3没有在提示词中引用插件添加了拍照插件后智能体并不会自动调用需要在人设提示词中用{显式引用插件名称告诉模型遇到食物识别需求时调用拍照工具。这个细节在官方文档的实践案例里有提到但容易忽略。五、后续可以扩展的方向目前这个智能体只做了单次识别还有很多可以继续做的方向每日热量记录结合灵珠平台的记忆功能累计记录一天的饮食热量饮食建议根据用户设定的目标减脂/增肌/控糖给出是否适合吃的建议食材识别不只识别成品食物还能识别超市里的生鲜食材Rokid Glasses 的穿戴式场景天然适合健康管理类应用因为它不需要用户掏出手机随时随地都能用。这个方向还有很大的空间。六、总结整个开发过程没有写一行代码从创建到调试完成大约花了 2 个小时。灵珠平台的可视化编排工具把模型接入、工作流搭建、插件配置都做得很直观对没有 AI 开发经验的人也很友好。如果你也想做一个 Rokid Glasses 上的健康类智能体卡路里识别是一个很好的起点——场景清晰、技术门槛低、实用价值高。欢迎在评论区交流也欢迎 fork 这个思路做出更完整的健康管理智能体。