拆解 Anthropic 的 Computer Use 指南：从能用到可靠还有多远

从能用到可靠

Anthropic 最近发了一篇技术指南，标题很朴素：Best Practices for Computer and Browser Use with Claude。

表面上是一份工程手册——截图分辨率怎么设、缓存断点放在哪、模型选 Sonnet 还是 Opus。但读完你会发现，这篇指南最有信息量的地方不是它教你怎么做，而是它暴露出的"为什么需要这么做"。每一条最佳实践的背后，都藏着一个还没被彻底解决的工程问题。

Computer Use 的演示看起来已经足够好了——AI 能看到屏幕、能移动鼠标、能填表单、能在页面间导航。但从"能用"到"可靠"，中间隔着一条工程鸿沟。这篇文章挑出指南中最值得注意的两个方向——上下文管理和演示模式——拆解它们各自暴露的能力边界。

一、跑长了就崩

先说一个基本事实。Computer Use 的工作原理是"截图—思考—操作"的循环：模型看到一张屏幕截图，输出一个坐标或操作指令，系统执行，再截一张图给模型——如此往复。

这个循环有一个硬约束。每张截图消耗 1000 到 1800 个 token。Claude 的上下文窗口是 200k token。算一下：每一步操作附带一张截图，大约 100 多步之后，窗口就满了。

100 步听起来不少。但对于真实的自动化任务——比如在一个 ERP 系统里处理 20 条工单，每条需要 5–8 步操作——100 步很快就用完了。

Anthropic 在指南里给出了一个三层解决方案。值得注意的是，这不是一个简洁的架构设计，更像是一层一层打补丁。

上下文管理的三层取舍

第一层：缓存断点。 在系统提示和最近的工具调用结果上放置缓存标记，让 API 复用已经处理过的前缀。这一层解决的是成本问题——避免重复计算——但不解决空间问题，窗口还是会满。

第二层：滚动窗口。 只保留最近 3 张截图（keep_n=3），更早的截图替换成纯文本描述。每 25 步清理一次。这一层解决了空间问题，但代价是信息的不可逆丢失——模型不再记得之前屏幕上具体长什么样，只剩一段文字摘要。

第三层：LLM 压缩。 当输入接近 150k token 时，调用另一个模型把整段对话压缩成一份结构化摘要，然后在压缩后的上下文上继续工作。指南甚至给出了压缩提示词的模板，要求保留用户指令原文、已完成的操作、遇到的错误、当前状态和下一步计划。

三层放一起，你能看到一条清晰的取舍链：

这套方案的坦率程度让人印象深刻。Anthropic 没有假装这个问题被解决了。他们给的默认配置——keep_n=3、每 25 步清理、150k 时触发压缩——更像经验调参，而不是理论最优。指南原文甚至提到，如果压缩后的缓存断点失效，系统应该优雅降级（gracefully degrade）。

这是工程层面的"够用解"，不是根本解。上下文窗口是当前 Transformer 架构的物理约束。在架构层面没有突破之前——比如真正可靠的外部记忆系统——长任务的可靠性会有一个确定的天花板。这套三层方案把天花板抬高了不少，但它还在那里。

就算上下文管理搞定了，你还是要面对第二个问题：怎么告诉 AI 做什么。

目前最常见的做法是写提示词，用自然语言描述操作步骤：“先点击左上角的菜单，然后选择’新建项目’，在名称栏输入……"。但凡用过 Computer Use 的人都知道这有多脆弱。UI 布局稍有变化，位置描述就可能失效。步骤写得太笼统，模型会乱点；写得太细，又变成了伪代码，还不如直接写脚本。

Anthropic 在指南里介绍了一个不同思路：Teaching Mode，或者叫演示模式。

做法很直觉——先由人类在屏幕上完成一遍操作，系统在后台录制每一步的截图、点击坐标、CSS 选择器和动作描述。录制完成后，这段"操作录像"作为上下文喂给模型。模型不是盲目回放，而是参考录像、适配当前的 UI 状态来执行。

指南定义了三种回放模式：

这听起来很像 RPA——没错，但有一个关键区别。

传统 RPA 录的是确定性脚本：点击坐标 (342, 518)，等待 2 秒，输入文本。UI 一改版——按钮换了位置、多了一个弹窗——脚本立刻报废。RPA 的维护成本是出了名的高，很多企业花在维护录制脚本上的时间比录制本身还多。

Teaching Mode 录的不是脚本，而是"意图参考”。模型看到的是"这一步是在点击’新建项目’按钮"，而不是"点击坐标 (342, 518)"。如果按钮换了位置，模型可以自己找到它——前提是模型的视觉理解能力足够强。

这是一个值得注意的方向转换。它把"教 AI 做事"的门槛从"写代码"降到了"录屏幕"。对于非开发者来说，这可能才是 Computer Use 真正可用的前提条件。

但限制也很明确。你需要录制基础设施——Anthropic 在参考实现里给出了数据模型，但生产级的录制工具还不成熟。录制质量直接影响回放效果。演示库需要维护——如果目标应用大改版，演示也要重录。这些成本不会消失，只是从"维护脚本"变成了"维护录像"。进步是真实的，但不是魔法。

回到开头的那个问题。

演示期——AI 能操作电脑了——已经过了。模型的视觉理解和坐标输出能力，足以完成大多数单步操作。指南里关于分辨率优化和点击精度的大段讨论，反过来说明这些问题已经进入可工程化解决的范围。

工程期——让 AI 可靠地操作电脑——正在进行中。上下文管理的三层方案是一个诚实的工程回答，但它暴露的问题比它解决的问题更值得关注。

规模化——让非开发者也能定义和复用自动化任务——Teaching Mode 指出了方向，但离成熟还有距离。

如果你现在想用 Computer Use 做点什么，一个务实的判断标准：

Anthropic 选择在技术尚未完全成熟时就发布这份工程指南。这通常意味着两件事：一是已经有足够多的开发者在生产环境中使用 Computer Use；二是他们观察到了足够多的共性问题，不得不统一回答。

从"能用"到"可靠"的距离，Anthropic 自己比任何人都清楚。这篇指南就是证据。