公司新闻

2026-06-06

▎凯发k8国际首页登录9|和朋友共享我的娇妻燕子|1

　　你让 AI Agent 帮你修一个代码 Bugღ◈◈。它打开项目ღ◈◈，读了 20 个文件ღ◈◈，改了改ღ◈◈，跑了一下测试ღ◈◈，没过ღ◈◈，又改ღ◈◈，又跑ღ◈◈，还是没过……来回折腾了十几轮ღ◈◈，终于——还是没修好ღ◈◈。

　　上面的数字可能让你倒吸一口凉气——AI Agent 自主修 Bug 在海外官方 API 下ღ◈◈，单次未修复任务常烧掉百万以上 Tokenღ◈◈，费用可达几十至一百多美元ღ◈◈。

　　2026 年 4 月ღ◈◈，一篇由斯坦福ღ◈◈、MITღ◈◈、密歇根大学等联合发布的研究论文ღ◈◈，第一次系统性地打开了 AI Agent 在代码任务中的“消费黑箱”——钱到底花在哪了凯发k8国际首页登录ღ◈◈、花得值不值ღ◈◈、能不能提前预估ღ◈◈，答案令人震惊ღ◈◈。

　　Agentic 编码任务的 Token 消耗量ღ◈◈，是普通代码问答和代码推理任务的约 1000 倍ღ◈◈。

　　这里的“读”不是指人类读代码ღ◈◈，而是 Agent 在工作过程中ღ◈◈，需要不断地把整个项目的上下文ღ◈◈、历史操作记录ღ◈◈、报错信息ღ◈◈、文件内容一股脑儿“喂”给模型ღ◈◈。每多一轮对话ღ◈◈，这个上下文就变得更长一轮ღ◈◈；而模型是按 Token 数量计费的——你喂得越多ღ◈◈，付得越多ღ◈◈。

　　打个比方ღ◈◈：这就像请了一个修理工ღ◈◈，他每动一下扳手之前ღ◈◈，都要你把整栋楼的图纸从头念一遍给他听——念图纸的钱ღ◈◈，远比拧螺丝的钱贵得多ღ◈◈。

　　论文把这个现象总结为一句话ღ◈◈：驱动 Agent 成本的ღ◈◈，是输入 Token 的指数级增长ღ◈◈，而非输出 Tokenღ◈◈。

　　在不同任务之间ღ◈◈，最贵的任务比最便宜的任务多烧约700 万个 Token（Figure 2a）同一模型ღ◈◈、同一任务的多次运行中凯发k8国际首页登录ღ◈◈，最贵的一次大约是最便宜的一次的2 倍（Figure 2b）而如果跨模型对比同一个任务ღ◈◈，最高消耗和最低消耗之间可以相差高达30 倍

　　最后一个数字尤其值得关注ღ◈◈：这意味着ღ◈◈，选对模型和选错模型之间的成本差距ღ◈◈，不是“贵一点”ღ◈◈，而是“贵出一个数量级”ღ◈◈。

　　成本水平准确率趋势低成本准确率较低（可能投入不够）中等成本准确率往往最高高成本准确率不升反降ღ◈◈，进入饱和区间

　　研究发现ღ◈◈，在高成本运行中ღ◈◈，约50% 的文件查看和文件修改操作是重复的——也就是说ღ◈◈，Agent 在反复读同一个文件ღ◈◈、反复改同一行代码ღ◈◈，像一个人在房间里转圈ღ◈◈，越转越晕ღ◈◈，越晕越转ღ◈◈。

　　发现三ღ◈◈：模型之间“能效比”天差地别——GPT-5 最省和朋友共享我的娇妻燕子ღ◈◈，有的模型多烧 150 万 Token

　　论文在业界标准的SWE-bench Verified（500 个真实 GitHub Issue）上ღ◈◈，测试了 8 个前沿大模型的 Agent 表现ღ◈◈。换算成美元凯发k8国际首页登录ღ◈◈，Token效率高的模型每个任务可以多花几十块的区别ღ◈◈。放到企业级应用——一天跑几百个任务——差距就是真金白银ღ◈◈。

　　研究者把所有模型都成功解决的任务（230 个）和所有模型都失败的任务（100 个）分别拿出来比较ღ◈◈，发现模型的相对排名几乎没有变化ღ◈◈。

　　在面对所有模型都无法解决的困难任务时凯发k8国际首页登录凯发k8国际首页登录ღ◈◈，理想的 Agent 应该尽早放弃和朋友共享我的娇妻燕子ღ◈◈，而不是继续烧钱ღ◈◈。但现实是凯发k8国际首页登录ღ◈◈，模型普遍在失败任务上消耗了更多的 Token——它们不会“认输”ღ◈◈，只会继续探索ღ◈◈、重试ღ◈◈、重读上下文ღ◈◈，像一台没有油表警示灯的汽车ღ◈◈，一路开到抛锚ღ◈◈。

　　论文找来人类专家ღ◈◈，对 500 个任务的难度进行评分ღ◈◈，然后和 Agent 的实际 Token 消耗做对比——

　　用大白话说ღ◈◈：人类觉得难得要死的任务ღ◈◈，Agent 可能轻松搞定不怎么花钱ღ◈◈；人类觉得小菜一碟的任务ღ◈◈，Agent 可能烧到怀疑人生ღ◈◈。

　　人类看的是ღ◈◈：逻辑复杂度ღ◈◈、算法难度ღ◈◈、业务理解门槛Agent 看的是ღ◈◈：项目有多大ღ◈◈、要读多少文件和朋友共享我的娇妻燕子ღ◈◈、探索路径有多长ღ◈◈、会不会反复修改同一个文件

　　一个人类专家觉得“改一行就行”的 Bugღ◈◈，Agent 可能要先读懂整个代码库的结构才能定位到那一行——光是“读”就要烧掉大量 Tokenღ◈◈。而一个人类觉得“逻辑很绕”的算法问题ღ◈◈，Agent 可能恰好知道标准解法ღ◈◈，三下五除二就搞定了ღ◈◈。

　　研究者设计了一个精巧的实验ღ◈◈：让 Agent 在真正开始修 Bug 之前ღ◈◈，先“ inspect”一下代码库ღ◈◈，然后预估自己需要消耗多少 Token——但不实际执行修复ღ◈◈。

　　更离谱的是ღ◈◈：所有模型都系统性低估了自己的 Token 消耗ღ◈◈。Figure 11 的散点图中ღ◈◈，几乎所有数据点都落在“完美预测线”的下方——模型觉得自己“花不了那么多”ღ◈◈，实际上花了更多ღ◈◈。而且这个低估偏差在不提供示例的情况下更加严重ღ◈◈。

　　Claude Sonnet-3.7 和 Sonnet-4 的预测成本甚至高达任务本身成本的2 倍以上ღ◈◈。也就是说凯发k8国际首页登录ღ◈◈，让它们先“估个价”和朋友共享我的娇妻燕子ღ◈◈，比直接干活还贵ღ◈◈。

　　现阶段ღ◈◈，前沿模型无法准确预测自身的 Token 用量ღ◈◈。点下“运行 Agent”ღ◈◈，就像开盲盒——账单出来才知道花了多少ღ◈◈。这笔“糊涂账”背后ღ◈◈，藏着一个更大的行业问题

　　论文指出ღ◈◈，像 ChatGPT Plus 这样的订阅制之所以可行ღ◈◈，是因为普通对话的 Token 消耗相对可控ღ◈◈、可预测ღ◈◈。但 Agent 任务完全打破了这一假设——一个的任务可能因为 Agent 陷入循环而烧掉巨量 Tokenღ◈◈。

　　这意味着和朋友共享我的娇妻燕子ღ◈◈，纯粹的订阅制定价对 Agent 场景可能不可持续ღ◈◈，按量计费（Pay-as-you-go）在相当长时间内仍是最现实的选项ღ◈◈。但按量计费的问题在于——用量本身就不可预测ღ◈◈。

　　传统上ღ◈◈，企业选模型看两个维度ღ◈◈：能力（能不能干）和速度（干得快不快）ღ◈◈。这篇论文给出了第三个同等重要的维度ღ◈◈：能效（花多少才能干成）ღ◈◈。

　　论文提到一个值得关注的未来方向——Budget-aware tool-use policies（预算感知的工具使用策略）ღ◈◈。简单说就是给 Agent 装一个油表ღ◈◈：当 Token 消耗接近预算时ღ◈◈，强制它停止无效探索ღ◈◈，而不是一路烧到底和朋友共享我的娇妻燕子ღ◈◈。

　　这篇论文揭示的并非某个模型的缺陷ღ◈◈，而是整个 Agent 范式的结构性挑战——当 AI 从“一问一答”进化到“自主规划ღ◈◈、多步执行ღ◈◈、反复调试”ღ◈◈，Token 消耗的不可预测性几乎是一种必然ღ◈◈。

　　好消息是ღ◈◈，这是第一次有人系统性地把这笔糊涂账翻出来算ღ◈◈。有了这份数据ღ◈◈，开发者可以更明智地选择模型ღ◈◈、设置预算ღ◈◈、设计止损机制ღ◈◈；模型厂商也有了一个新的优化方向——不只是做得更强ღ◈◈，还要做得更省凯发k8国际首页登录ღ◈◈。智慧家电ღ◈◈，凯发k8国际ღ◈◈，k8凯发国际官方入口ღ◈◈，凯发k8一触即发凯发k8国际(中国)官方网站ღ◈◈，

上一篇 : k8凯发首页有人跟跑、有人领跑卡萨帝Q1继续|凉木桃香|居高端第一名

下一篇 : 凯发天生赢家一触即发官网618启动苏宁易购超千款AI家电上新|全讯网论坛|

返回列表

凯发·k8(国际)-官方网站

公司新闻

股票代码：002681

Copyright © 1993-2025 深圳市凯发K8国际首页科技股份有限公司 All Rights Reserved | 粤ICP备13087476号
粤公网安备 44030602007433号

凯发·k8(国际)-官方网站

公司新闻

股票代码：002681

Copyright © 1993-2025 深圳市凯发K8国际首页科技股份有限公司 All Rights Reserved | 粤ICP备13087476号 粤公网安备 44030602007433号

Copyright © 1993-2025 深圳市凯发K8国际首页科技股份有限公司 All Rights Reserved | 粤ICP备13087476号
粤公网安备 44030602007433号