从能用到可靠

Anthropic 最近发了一篇技术指南,标题很朴素:Best Practices for Computer and Browser Use with Claude

表面上是一份工程手册——截图分辨率怎么设、缓存断点放在哪、模型选 Sonnet 还是 Opus。但读完你会发现,这篇指南最有信息量的地方不是它教你怎么做,而是它暴露出的"为什么需要这么做"。每一条最佳实践的背后,都藏着一个还没被彻底解决的工程问题。

Computer Use 的演示看起来已经足够好了——AI 能看到屏幕、能移动鼠标、能填表单、能在页面间导航。但从"能用"到"可靠",中间隔着一条工程鸿沟。这篇文章挑出指南中最值得注意的两个方向——上下文管理和演示模式——拆解它们各自暴露的能力边界。

一、跑长了就崩

先说一个基本事实。Computer Use 的工作原理是"截图—思考—操作"的循环:模型看到一张屏幕截图,输出一个坐标或操作指令,系统执行,再截一张图给模型——如此往复。

这个循环有一个硬约束。每张截图消耗 1000 到 1800 个 token。Claude 的上下文窗口是 200k token。算一下:每一步操作附带一张截图,大约 100 多步之后,窗口就满了。

100 步听起来不少。但对于真实的自动化任务——比如在一个 ERP 系统里处理 20 条工单,每条需要 5–8 步操作——100 步很快就用完了。

Anthropic 在指南里给出了一个三层解决方案。值得注意的是,这不是一个简洁的架构设计,更像是一层一层打补丁。

上下文管理的三层取舍

第一层:缓存断点。 在系统提示和最近的工具调用结果上放置缓存标记,让 API 复用已经处理过的前缀。这一层解决的是成本问题——避免重复计算——但不解决空间问题,窗口还是会满。

第二层:滚动窗口。 只保留最近 3 张截图(keep_n=3),更早的截图替换成纯文本描述。每 25 步清理一次。这一层解决了空间问题,但代价是信息的不可逆丢失——模型不再记得之前屏幕上具体长什么样,只剩一段文字摘要。

第三层:LLM 压缩。 当输入接近 150k token 时,调用另一个模型把整段对话压缩成一份结构化摘要,然后在压缩后的上下文上继续工作。指南甚至给出了压缩提示词的模板,要求保留用户指令原文、已完成的操作、遇到的错误、当前状态和下一步计划。

三层放一起,你能看到一条清晰的取舍链:

这套方案的坦率程度让人印象深刻。Anthropic 没有假装这个问题被解决了。他们给的默认配置——keep_n=3、每 25 步清理、150k 时触发压缩——更像经验调参,而不是理论最优。指南原文甚至提到,如果压缩后的缓存断点失效,系统应该优雅降级(gracefully degrade)。

这是工程层面的"够用解",不是根本解。上下文窗口是当前 Transformer 架构的物理约束。在架构层面没有突破之前——比如真正可靠的外部记忆系统——长任务的可靠性会有一个确定的天花板。这套三层方案把天花板抬高了不少,但它还在那里。

二、录屏比写提示词靠谱

就算上下文管理搞定了,你还是要面对第二个问题:怎么告诉 AI 做什么。

目前最常见的做法是写提示词,用自然语言描述操作步骤:“先点击左上角的菜单,然后选择’新建项目’,在名称栏输入……"。但凡用过 Computer Use 的人都知道这有多脆弱。UI 布局稍有变化,位置描述就可能失效。步骤写得太笼统,模型会乱点;写得太细,又变成了伪代码,还不如直接写脚本。

Anthropic 在指南里介绍了一个不同思路:Teaching Mode,或者叫演示模式。

做法很直觉——先由人类在屏幕上完成一遍操作,系统在后台录制每一步的截图、点击坐标、CSS 选择器和动作描述。录制完成后,这段"操作录像"作为上下文喂给模型。模型不是盲目回放,而是参考录像、适配当前的 UI 状态来执行。

指南定义了三种回放模式:

这听起来很像 RPA——没错,但有一个关键区别。

传统 RPA 录的是确定性脚本:点击坐标 (342, 518),等待 2 秒,输入文本。UI 一改版——按钮换了位置、多了一个弹窗——脚本立刻报废。RPA 的维护成本是出了名的高,很多企业花在维护录制脚本上的时间比录制本身还多。

Teaching Mode 录的不是脚本,而是"意图参考”。模型看到的是"这一步是在点击’新建项目’按钮",而不是"点击坐标 (342, 518)"。如果按钮换了位置,模型可以自己找到它——前提是模型的视觉理解能力足够强。

这是一个值得注意的方向转换。它把"教 AI 做事"的门槛从"写代码"降到了"录屏幕"。对于非开发者来说,这可能才是 Computer Use 真正可用的前提条件。

但限制也很明确。你需要录制基础设施——Anthropic 在参考实现里给出了数据模型,但生产级的录制工具还不成熟。录制质量直接影响回放效果。演示库需要维护——如果目标应用大改版,演示也要重录。这些成本不会消失,只是从"维护脚本"变成了"维护录像"。进步是真实的,但不是魔法。

三、我们在阶梯的哪里

回到开头的那个问题。

演示期——AI 能操作电脑了——已经过了。模型的视觉理解和坐标输出能力,足以完成大多数单步操作。指南里关于分辨率优化和点击精度的大段讨论,反过来说明这些问题已经进入可工程化解决的范围。

工程期——让 AI 可靠地操作电脑——正在进行中。上下文管理的三层方案是一个诚实的工程回答,但它暴露的问题比它解决的问题更值得关注。

规模化——让非开发者也能定义和复用自动化任务——Teaching Mode 指出了方向,但离成熟还有距离。

如果你现在想用 Computer Use 做点什么,一个务实的判断标准:

Anthropic 选择在技术尚未完全成熟时就发布这份工程指南。这通常意味着两件事:一是已经有足够多的开发者在生产环境中使用 Computer Use;二是他们观察到了足够多的共性问题,不得不统一回答。

从"能用"到"可靠"的距离,Anthropic 自己比任何人都清楚。这篇指南就是证据。