把杂乱数据梳理成有序结果

手上有份数据整理的工作:三个来源的数据要对齐。同一个东西,在三个地方名字各写各的,字段对不齐,还压着一堆只有懂业务的人才知道的判定规则。最后要产出一份能直接用的结果,还得交给同事以后自己能跑。

这种活儿按老办法做,得把规则一条条翻成代码、调试、跑通,乐观估计也要搭进去小半个月。这次我用 Claude Cowork,就是 Anthropic 桌面端那个能直接在你电脑上动手的模式,几个小时就整理好了,又快又准。

说说它具体做了什么。

它直接动手捋数据,不是教我怎么捋

跟普通聊天最大的区别在这。

在对话框里问怎么对齐三张表,它给你讲思路、丢几段代码,你自己回去拼。Cowork 不一样。你把数据所在的文件夹连给它,它就真的在你电脑上读文件、跑计算、把结果写成一个文件交给你。我把几份原始数据放进它能访问的目录,让它去比对,十几分钟,结果就出来了。以前最耗时间的"把逻辑变成能跑的程序"这一步,它全包了。

它替我把规则和差异都理清楚了

这是它最值钱的地方,也是我以前最头疼的部分。它做的事拆开看是这几件。

先是理清三个来源之间的对应关系,搞明白同一个东西在三处分别长什么样、靠哪些字段能对上。

然后把对齐的规则一条条定下来:哪几个字段算同一个,数值差在多少范围内算一致,名字写法不一样的怎么归到一起。比如有个指标,一个来源是厂商填的整数,另一个是实测的小数,老差零点几。一开始判得太死,差一点就算"不一致",一大片本来对得上的全被打成了差异。我跟它说这俩本来就有口径差、差零点几正常,它马上改判定、重跑,还把因此从"不一致"翻回"一致"的条目列出来让我确认。

最后是把差异算清楚、分好类:多少条完全对得上,多少条对不上,对不上的具体差在哪个字段、差多大、各有多少条。一张表下来,哪些能直接用、哪些得人工再看,一目了然。

光命名归一这一类就够磨的。一个来源全大写,一个大小写混着写;一个中文,一个英文缩写;还夹着空格、标点、主名和别名对不上。每发现一类,我说一声,它加一条规则。有七百多条一开始死活对不上的,这么一类一类磨下来,最后只剩九十几条是对方数据里真没有、谁也救不回的。

它也会出错,所以人不能走开

不是一路顺。有回我让它把名称匹配放宽点,它一下放过头,把一条记录硬配给了另一条其实不相干的。还有几次为同一个统计口径来回拉锯,它先按一种理解算,我说不对,换一种,又跟另一份参考对不上,再调。

这些事反而让我觉得它的定位是对的。活它来干,速度它来给,要紧的判断得你来。错配是我抽样时肉眼发现的;口径怎么定,得有个懂业务的人拍板。它快归快,拍板的还得是我。

一次性的活,能存下来反复用、还能自己跑

要是只跑出个对的结果,那 Cowork 也就是个提效工具。让我觉得它不太一样的是后面两件事。

一是能存下来复用。这套逻辑后面要交给同事维护,我让 Cowork 把所有规则,容差、命名映射、判定标准,全抽到一个配置文件里,不写代码的人也能改;再把核心算法和读写文件的部分拆开,配上文档和一个三十秒上手的说明,连样本数据打成一个包。这类可复用的能力在 Cowork 里能沉淀成 Skill,下次同类的活儿直接调,不用从头再聊一遍。

二是能定时自己跑。这活儿不是做完一次就完,隔段时间有新数据要重对。在 Cowork 里打一个 /schedule,设成定时,它就自己开个会话把整套比对跑一遍,结果放进文件夹。我从"每次手动跑"变成"打开看结果"。前提是电脑醒着、App 开着它才会跑,这个得记住。

最后

同一个问题,搁过去我得靠写代码硬解,乐观也要小半个月,还不一定干净。这次几个小时就出活,质量我自己挺满意。

变化不在于谁来写代码,在于从"想清楚规则"到"做出能用的结果"中间那段,被压缩得几乎没有了。脏活它干,长尾它陪你抠,做完还能存成 Skill、设成定时任务自己跑。剩下的是你的事:想清楚规则,在它拿不准的地方把判断定下来。