AI收费告别“单一Token时代”:计费单位裂变,价值分层重构企业预算语言
AI收费告别“单一Token时代”“Token经济”正成为AI行业近期最热的关键词之一。当OpenClaw俗称“龙虾”引发全民关注各大厂商加入“龙虾潮”Token消耗呈指数级增长。开发者社区和社交平台频繁出现对比表比较不同模型的Token消耗、输出质量差异以及“每千Token成本”。但用Token算账并非易事。一个做财务的朋友询问agent每天几十万次调用一个月要花多少钱看似可通过“Token×单价×调用次数”计算然而翻开Anthropic的价格页Claude Managed Agents的session runtime按$0.08/session - hour独立计费cache write和cache hit各有不同档位的乘数与Token不在一个维度。查看几家主流平台的价格页发现这不是一道简单的算术题。OpenAI的价格页像资源总账Token之外web search按千次调用收费container按session时长收费file search storage按GB/天收费regional processing再叠一层10%。Google Gemini收敛一些但grounding和context caching也独立计价。Anthropic三档缓存乘数叠一个session runtime又是另一套维度三家无法用同一公式计算。再往上商品边界脱离“模型”。Salesforce用Flex Credits把动作配额写进价格体系Intercom绕开Token按outcome收费每个$0.99并定义“有效解决”。2026年一月OpenAI CFO Sarah Friar在官网文章中指出三条商业化路径订阅、广告支撑的免费层、按用量计费的API还表示未来将扩展到授权、IP协议和按结果定价。过去行业常讨论“谁的Token更便宜”默认存在统一计量单位。但到2026年4月Token已不是AI账单唯一计费单位AI商品从单一计量项走向多单位并存企业预算语言被改写。如今若只讨论“哪个模型每百万Token更贵”看到的只是底层供给一部分。企业购买的是一段组织过的智能劳动裸模型只是一小部分可能包含模型推理、搜索、检索、缓存等。AI经济经历的不是简单价格战而是计费对象扩散。这里易误读为“计费单位变多”意味着“底层模型不重要”但事实相反模型仍是核心供给对象只是不再是企业成本解释框架的唯一变量。系统进入真实工作流采购者与运营者需处理grounding、batch、regional、runtime与席位切换账单是一组叠加的价格对象。AI底层可能像电力成为公用事业便宜、可计量、不可或缺但价值不在此。经济史上电带来的生产率跃升是工厂围绕电重写生产组织而非电变便宜。AI成本从统一定价走向按任务分化过去用“每百万Token多少钱”理解AI成本如今这个锚点失效账单主角取决于任务。以轻量、高频、检索为主的企业问答任务为例Google Gemini 2.5 Flash - Lite标准档5,000 input 1,000 output TokensToken成本约0.0009美元附带一次grounded prompt超出免费额度后单次grounding价格为0.035美元是Token成本近四十倍。这类工作负载中search / grounding等外层能力主导账单模型推理退居二线。换成更强的前沿模型情况不同。OpenAI GPT - 5.4标准档5,000 input 1,000 output Tokens约0.0275美元一次web search的tool call fee为0.01美元search content Tokens另按模型费率计一次1GB container session为0.03美元。此时模型成本与工具调用处于同一数量级推理密集任务中甚至占大头。Anthropic官方的Claude Managed Agents worked example显示一小时的Opus 4.6 coding session50,000 input 15,000 output的Token成本是0.625美元session runtime仅0.08美元。runtime进入商品列表但未“压倒”模型成本。三个例子表明成本大头取决于AI的任务。通俗说让AI查资料钱花在搜索让它动脑子钱花在模型让它后台干活“开机时长”是一笔账不存在通用的“AI单位成本”表。AI经济演变不能简化为“工具吃掉模型”或“模型吞噬一切”买方需按不同任务形态理解total cost不再假定统一成本锚。计费单位裂变后果严重原本用“每百万Token多少钱”对账的人现在要理解search成本、cache命中率、runtime时长与regional溢价。预算口径从一维变多维采购比较轴从“谁的Token更便宜”变成“在我的工作负载下谁的综合成本更低”倒逼企业重写理解AI支出的方式。中国市场是“反向参照”。2024年国内大模型价格战惨烈部分厂商降价超97%推理毛利一度为负战争围绕“谁的百万token更便宜”。runtime、grounding、outcome等在美国价格页独立成行的维度在中国仍处于早期。所有玩家挤在同一计量单位竞争负毛利是结构性终点。价格页先变企业的预算体系也需跟上计费单位变化先体现在价格页最后反映到平台营收。企业预算表最先被迫调整。目前无可靠公开数据证明OpenAI、Google或Anthropic的tool/storage/runtime营收超过model/Token营收。所以平台价格页新增收费项不代表钱从新项目挣得需等数据说话。当前可确认的是卖方定价语言已变买方预算口径不能停在Token。道理很简单官方价格页把tool call、session runtime、outcome独立定价企业对账单不能只列Token否则买卖双方核算对不上。Token不再是唯一主角更像底层计量单位。真正影响账单的是推理、搜索、缓存等成本。Sarah Friar提到的“未来扩展到授权、IP协议、按结果定价”说明OpenAI清楚卖的不只是Token。买方预算框架调整后一些被忽视的东西会重新浮现。Model router决定账单结构选错预算重心偏移Salesforce的Flex Credits卖的是“使用权”Outcome pricing把预算绑在“完成件”上企业可用结果与供应商对账。新计费单位或许未改写卖方收入结构但已改写企业看待AI的方式。组织用新语言理解AI支出预算流向和沉淀不再由模型排行榜决定。当计费单位裂变价值开始分层把视野拉远计费单位不只是token“钱沉淀在哪一层”得分层看。可把AI经济看成五层结算栈本系列接下来几篇会沿此框架展开第一层·公用事业层算力、Token、缓存、搜索、容器、文件检索可计量、可路由的“认知吞吐量”第二层·协议与能力层MCP、A2A、Agent Skills这类让模型、工具、数据源和agent互操作的共同接口第三层·知识封装层Skill、Prompt、Eval、Policy、Memory序列化行业know - how第四层·执行交付层被托管、观测、监控的“数字劳动力”marketplace把agent从“下载”变成“调用”第五层·结果与责任层Intercom的$0.99 per outcome表明“被完成的工作”成为合同化结算对象。五层有清晰分布规律越靠下越易单位化和路由化越靠上越深嵌入上下文、验收和责任。对应的商业模式也分化底层依赖规模和效率买方按成本比价上层依赖不可替代性买方按结果付费。两种模式“价格锚”不同前者锚定投入成本后者锚定创造的价值。Token经济不再只关于Token如今谈Token经济学不只是“Token单价走势”更要研究Token作为底层计量颗粒如何与search、cache、runtime、seat、outcome等高层单位一起重写企业对AI的预算语言。Token还在但不能单独解释这门生意。底层资源层可能是最大利润池甚至有高度集中的赢家。但2026年想理解AI商业化变化只盯着Token不够问题从“Token多便宜”变成“整张账单如何构成”。接下来应观察一些信号企业合同是否出现SLA、数据驻留、缓存策略、责任边界等条款而非只谈Token单价marketplace上是否出现带eval card的agent服务是否出现第三方的审计、认证和争议处理服务。到2027年底若三条中有两条以上落地可确认结算对象从Token向更高层上移。Anthropic在4月7日以“invitation - only”方式发布了Mythos预览版同时工作层模型价格持续下降。前沿能力集中工作层商品化成本下沉价值上移。这两种看似相反的变化指向同一方向AI价格走向分层价值重新分配。当Token不再是唯一计量单位账单拆分成多种成本结构企业为哪一层买单决定价值沉淀在哪一层。至于“成本下沉、价值上移”结构如何在同一体系成立后续解读将展开。那么这种结构究竟是如何实现的呢