你让 AI Agent 帮你修一个代码 Bugღ◈◈。它打开项目ღ◈◈,读了 20 个文件ღ◈◈,改了改ღ◈◈,跑了一下测试ღ◈◈,没过ღ◈◈,又改ღ◈◈,又跑ღ◈◈,还是没过……来回折腾了十几轮ღ◈◈,终于——还是没修好ღ◈◈。
上面的数字可能让你倒吸一口凉气——AI Agent 自主修 Bug 在海外官方 API 下ღ◈◈,单次未修复任务常烧掉百万以上 Tokenღ◈◈,费用可达几十至一百多美元ღ◈◈。
2026 年 4 月ღ◈◈,一篇由斯坦福ღ◈◈、MITღ◈◈、密歇根大学等联合发布的研究论文ღ◈◈,第一次系统性地打开了 AI Agent 在代码任务中的“消费黑箱”——钱到底花在哪了凯发k8国际首页登录ღ◈◈、花得值不值ღ◈◈、能不能提前预估ღ◈◈,答案令人震惊ღ◈◈。
Agentic 编码任务的 Token 消耗量ღ◈◈,是普通代码问答和代码推理任务的 约 1000 倍ღ◈◈。
这里的“读”不是指人类读代码ღ◈◈,而是 Agent 在工作过程中ღ◈◈,需要不断地把整个项目的上下文ღ◈◈、历史操作记录ღ◈◈、报错信息ღ◈◈、文件内容一股脑儿“喂”给模型ღ◈◈。每多一轮对话ღ◈◈,这个上下文就变得更长一轮ღ◈◈;而模型是按 Token 数量计费的——你喂得越多ღ◈◈,付得越多ღ◈◈。
打个比方ღ◈◈:这就像请了一个修理工ღ◈◈,他每动一下扳手之前ღ◈◈,都要你把整栋楼的图纸从头念一遍给他听——念图纸的钱ღ◈◈,远比拧螺丝的钱贵得多ღ◈◈。
论文把这个现象总结为一句话ღ◈◈:驱动 Agent 成本的ღ◈◈,是输入 Token 的指数级增长ღ◈◈,而非输出 Tokenღ◈◈。
在不同任务之间ღ◈◈,最贵的任务比最便宜的任务多烧约700 万个 Token(Figure 2a)同一模型ღ◈◈、同一任务的多次运行中凯发k8国际首页登录ღ◈◈,最贵的一次大约是最便宜的一次的2 倍(Figure 2b)而如果跨模型对比同一个任务ღ◈◈,最高消耗和最低消耗之间可以相差高达30 倍
最后一个数字尤其值得关注ღ◈◈:这意味着ღ◈◈,选对模型和选错模型之间的成本差距ღ◈◈,不是“贵一点”ღ◈◈,而是“贵出一个数量级”ღ◈◈。
成本水平准确率趋势低成本准确率较低(可能投入不够)中等成本准确率往往最高高成本准确率不升反降ღ◈◈,进入饱和区间
研究发现ღ◈◈,在高成本运行中ღ◈◈,约50% 的文件查看和文件修改操作是重复的——也就是说ღ◈◈,Agent 在反复读同一个文件ღ◈◈、反复改同一行代码ღ◈◈,像一个人在房间里转圈ღ◈◈,越转越晕ღ◈◈,越晕越转ღ◈◈。
发现三ღ◈◈:模型之间“能效比”天差地别——GPT-5 最省和朋友共享我的娇妻燕子ღ◈◈,有的模型多烧 150 万 Token
论文在业界标准的SWE-bench Verified(500 个真实 GitHub Issue)上ღ◈◈,测试了 8 个前沿大模型的 Agent 表现ღ◈◈。换算成美元凯发k8国际首页登录ღ◈◈,Token效率高的模型每个任务可以多花几十块的区别ღ◈◈。放到企业级应用——一天跑几百个任务——差距就是真金白银ღ◈◈。
研究者把所有模型都成功解决的任务(230 个)和所有模型都失败的任务(100 个)分别拿出来比较ღ◈◈,发现模型的相对排名几乎没有变化ღ◈◈。
在面对所有模型都无法解决的困难任务时凯发k8国际首页登录凯发k8国际首页登录ღ◈◈,理想的 Agent 应该尽早放弃和朋友共享我的娇妻燕子ღ◈◈,而不是继续烧钱ღ◈◈。但现实是凯发k8国际首页登录ღ◈◈,模型普遍在失败任务上消耗了更多的 Token——它们不会“认输”ღ◈◈,只会继续探索ღ◈◈、重试ღ◈◈、重读上下文ღ◈◈,像一台没有油表警示灯的汽车ღ◈◈,一路开到抛锚ღ◈◈。
论文找来人类专家ღ◈◈,对 500 个任务的难度进行评分ღ◈◈,然后和 Agent 的实际 Token 消耗做对比——
用大白话说ღ◈◈:人类觉得难得要死的任务ღ◈◈,Agent 可能轻松搞定不怎么花钱ღ◈◈;人类觉得小菜一碟的任务ღ◈◈,Agent 可能烧到怀疑人生ღ◈◈。
人类看的是ღ◈◈:逻辑复杂度ღ◈◈、算法难度ღ◈◈、业务理解门槛Agent 看的是ღ◈◈:项目有多大ღ◈◈、要读多少文件和朋友共享我的娇妻燕子ღ◈◈、探索路径有多长ღ◈◈、会不会反复修改同一个文件
一个人类专家觉得“改一行就行”的 Bugღ◈◈,Agent 可能要先读懂整个代码库的结构才能定位到那一行——光是“读”就要烧掉大量 Tokenღ◈◈。而一个人类觉得“逻辑很绕”的算法问题ღ◈◈,Agent 可能恰好知道标准解法ღ◈◈,三下五除二就搞定了ღ◈◈。
研究者设计了一个精巧的实验ღ◈◈:让 Agent 在真正开始修 Bug 之前ღ◈◈,先“ inspect”一下代码库ღ◈◈,然后预估自己需要消耗多少 Token——但不实际执行修复ღ◈◈。
更离谱的是ღ◈◈:所有模型都系统性低估了自己的 Token 消耗ღ◈◈。Figure 11 的散点图中ღ◈◈,几乎所有数据点都落在“完美预测线”的下方——模型觉得自己“花不了那么多”ღ◈◈,实际上花了更多ღ◈◈。而且这个低估偏差在不提供示例的情况下更加严重ღ◈◈。
Claude Sonnet-3.7 和 Sonnet-4 的预测成本甚至高达任务本身成本的2 倍以上ღ◈◈。也就是说凯发k8国际首页登录ღ◈◈,让它们先“估个价”和朋友共享我的娇妻燕子ღ◈◈,比直接干活还贵ღ◈◈。
现阶段ღ◈◈,前沿模型无法准确预测自身的 Token 用量ღ◈◈。点下“运行 Agent”ღ◈◈,就像开盲盒——账单出来才知道花了多少ღ◈◈。这笔“糊涂账”背后ღ◈◈,藏着一个更大的行业问题
论文指出ღ◈◈,像 ChatGPT Plus 这样的订阅制之所以可行ღ◈◈,是因为普通对话的 Token 消耗相对可控ღ◈◈、可预测ღ◈◈。但 Agent 任务完全打破了这一假设——一个的任务可能因为 Agent 陷入循环而烧掉巨量 Tokenღ◈◈。
这意味着和朋友共享我的娇妻燕子ღ◈◈,纯粹的订阅制定价对 Agent 场景可能不可持续ღ◈◈,按量计费(Pay-as-you-go)在相当长时间内仍是最现实的选项ღ◈◈。但按量计费的问题在于——用量本身就不可预测ღ◈◈。
传统上ღ◈◈,企业选模型看两个维度ღ◈◈:能力(能不能干)和速度(干得快不快)ღ◈◈。这篇论文给出了第三个同等重要的维度ღ◈◈:能效(花多少才能干成)ღ◈◈。
论文提到一个值得关注的未来方向——Budget-aware tool-use policies(预算感知的工具使用策略)ღ◈◈。简单说就是给 Agent 装一个油表ღ◈◈:当 Token 消耗接近预算时ღ◈◈,强制它停止无效探索ღ◈◈,而不是一路烧到底和朋友共享我的娇妻燕子ღ◈◈。
这篇论文揭示的并非某个模型的缺陷ღ◈◈,而是整个 Agent 范式的结构性挑战——当 AI 从“一问一答”进化到“自主规划ღ◈◈、多步执行ღ◈◈、反复调试”ღ◈◈,Token 消耗的不可预测性几乎是一种必然ღ◈◈。
好消息是ღ◈◈,这是第一次有人系统性地把这笔糊涂账翻出来算ღ◈◈。有了这份数据ღ◈◈,开发者可以更明智地选择模型ღ◈◈、设置预算ღ◈◈、设计止损机制ღ◈◈;模型厂商也有了一个新的优化方向——不只是做得更强ღ◈◈,还要做得更省凯发k8国际首页登录ღ◈◈。智慧家电ღ◈◈,凯发k8国际ღ◈◈,k8凯发国际官方入口ღ◈◈,凯发k8一触即发凯发k8国际(中国)官方网站ღ◈◈,