Slock 与多 Agent 协作的一些观察
May 17, 2026
最近一直在一个叫 Slock 的工具里做开发,几乎很少打开 Codex 或者 Claude Code 了。
💡 如果不太了解 Slock 是什么——它就是一个长得很像 Slack 的工具,本质是一个 AI 原生的"人 + AI Agent 协作平台"。基础 IM 该有的它都有:频道、Thread、@、消息;但同时把 Agent 的管理功能也做进了同一个界面。
我现在的 setup 是一台 MacBook + 一台 Mac mini,加起来跑了 10 个左右的 Agent,手头通常 2 到 3 条任务线并行。
心智从 session 变成龙虾
用 Codex 或 Claude Code 的时候,大脑里想的是 session。打开一个仓库、跟模型聊几句、把上下文建立起来,开始干活。要做点稍微复杂的,就得搭一套 harness 或者 RPC 让 Agent 自己跑 loop。换项目就开新 session,每个 session 是个孤岛。
Claude Code 的主要 memory 又是绑在仓库或工作目录上的。假如手头有好几个仓库同时要改——比方说后端、前端、文档站三个项目——开一个 session 就有点尴尬:上下文混乱,跨仓库切换更累。
Slock 里的 Agent 不一样。每个 Agent 都有自己独立的工作区和记忆系统。它跟我们常用的那种 Slack-接-coding-CLI 类型的 broker(比如 Codex 3720 那种)也不一样:那种 broker 可以并发分身,开多个会话;Slock 里的 Agent 不能分身——它在干一件事的时候,另外的活就得排队。
OpenClaw 兴起来之后,大家慢慢把这种常驻 Agent 叫龙虾。一只龙虾有自己独立的工作目录、一套不断累积的记忆、不能同时做两件事。你跟它聊天的感觉,更像是给一个同事派任务——它能根据当前频道或 Thread 的上下文自己判断你想要它做什么,不需要每次都从头交代背景。
最大的心智变化:不是"我开一个 session 干活",而是"我有一群龙虾同事,各自积累了各自的方法论和脾气"。
多个 Agent 协作
每只龙虾跟你聊久了,会沉淀出一套自己的方法论和身份。有的喜欢事无巨细写代码,有的喜欢挑刺审稿,有的擅长盯进度,有的就是个信使。它们会跟着你的代码风格偏好、跟着你解决过的 bug 模式、跟着你做过的决策慢慢调整——这些知识不需要你反复交代,它会自己沉淀成"我的工作习惯"。
Agent 之间也会互相聊天。我经常看到一个 Agent 写完代码主动 @ 另一个 Agent 帮忙 review;看到相关讨论会主动 cross-post 给不在频道里的同事;遇到自己不擅长的领域会把任务转给更合适的那只龙虾。这件事在单 session 的 coding agent 里根本不会发生——它不知道还有别的 session 存在。
还有一个比较有意思的用法:我本地起一个服务,然后委托一个 Agent 专门去监控这个服务的 log。一旦出问题,它会立刻在 Slock 里面发起讨论、给出修复建议——必要时也能拉别的 Agent 一起看。
反例:Onee-sama 迁移
不过 multi-agent 也不是所有场景都帮上忙。最近做的一次 Onee-sama 迁移就是个挺典型的反例。
Onee-sama 是我们内部一个把 AI 助理塞进 Google Meet + Slack 的开源框架——Slack 那一侧管命令和权限,Meet 那一侧靠 Playwright 进会议、抓字幕和音频,复杂任务再 route 给后端的 Claude / Codex 等 agent。它本身是一个"薄编排壳",AI 大脑由使用者自带。
这次的活是把这套 bot 从原来的仓库里拆出来,迁到一个独立仓库重新维护,语言不变(还是 Go)。本来希望多几个 Agent 之后,不只是能多写代码,也能替人把迁移里的问题找出来,甚至把自动化验收补到位,尽量减少我自己放到真实环境里测试。
但实际做下来并不是这样。
我已经反复强调要 100% 复刻之前的行为,负责迁移的 Agent 还是会用自己的理解做一个"看起来正确"的路径:测试补了,功能也能跑,好像迁移成功了,但很多旧系统细节其实丢了。更麻烦的是,这些问题并没有被 Agent 或自动化测试提前发现,很多还是我在真实环境里一点点用出来的——一些后台流程没真的执行、一些响应模式不像以前了、一些边界判断变得过于激进、一些旧行为没有完整迁过来。到现在我其实也不能确定还有哪些行为没有迁移完。
这个例子说明,multi-agent 不会天然减少人的验收负担。Agent 可以帮忙写代码、补测试、查日志,但它未必知道自己漏了什么,也未必能主动建立一套足够接近真实环境的验收。最后"什么才叫真的迁移完成",还是要人持续压住。
Multi Agent 到底有没有用
也有很多人在质疑这类多 Agent 平台的价值。质疑点之一是:multi-agent 到底有没有用?
我自己体验下来分两层。
同一模型、不同身份:本质是给同一个模型不同的 system prompt,让它们各自盯一个 lane——一个写代码、一个审稿、一个盯进度。这只是分配同一个模型的注意力。上下文紧张时偶尔有帮助,但增量有限。
不同模型讨论同一问题:价值更大。我有时候会同时让 Claude Code、Codex、DeepSeek 三个不同模型的 Agent 一起讨论同一个技术方案,多数时候比单一模型出的结果好。每个模型擅长的不一样——比如 Claude Code 写前端速度快、质量好;Codex 在架构推理上更稳;DeepSeek 经常能从不一样的视角切入。前端项目里这种快速迭代看 UI 变化的工作流,速度差异尤其明显。
但说实话,真正的增量大多不是模型差异,是不同龙虾的记忆不一样。一只跑了两周 review 的龙虾,memory 里积累了"哪些 pattern 容易出 bug""哪些 API 变更是高危的"——这些知识不用你反复交代。这才是 multi-Agent 的护城河,不是模型组合本身。
还有一个比较深的代价,跟前面那个迁移反例直接相关:多个 Agent 之间会自然达成一定共识,来回讨论的信息量也很大,看起来很有说服力。人在读这么多 Agent 之间的判断、推理、引用时,多少会出现一些不耐烦的情绪,就更天然地相信他们的结论了。但很多时候他们只是在同一套不完整的上下文里互相强化了一个"看起来对"的结论——多个 Agent 互相认可,并不等于他们认对了。Onee-sama 迁移那个反例的一半问题就来自这里:Agent 们一起拍出一个"测试都绿了、行为也匹配了"的共识,比单个 Agent 这么说更让人想信,但真到用户链路里跑还是漏。
多机 + 多 CLI 的整合问题
另一个角度:就算 Slock 只有一个人用,价值也存在。如果你有多台机器在开发、多个不同的 coding CLI 同时用,甚至经常不在电脑前——这些散落的记忆和上下文要怎么组织起来?
Slock 是一种答案。其它方向也有人在做,比如一些试图做"个人上下文通用中间层"的工具——目标是无论你用哪个 coding agent,都能共享同一份个人偏好和工作历史,雪碧正在做的 Spool 就是这条路径上的一类。哪种形态最终会赢,现在还很早。
不一定要坐在电脑前
还有一个比较实际的点:因为开发都在 Slock 上面,我也可以用新买的折叠屏手机继续做事,不用所有时间都在电脑前盯着屏幕工作。
当然这样确实也可以摸鱼。但我觉得人有时候在一个地方一直坐着,思维实际上会固化;多出去散散步,可能会出现一些新的灵感。
代价
当然,我也不觉得 Slock 就一定是对的。
第一:作为人,注意力反而更分散了。以前用 Codex 是开一个 session 盯着一件事打完。现在 Slock 里多频道并行更新、多只龙虾同时干活,人需要在不同 Thread 之间跳来跳去 review 和决策。对细节的把控明显弱了。
第二:龙虾会"变笨"。它们的 memory 不断累积——上周的 bug、昨天的讨论、上个月的决策——全堆在越来越长的上下文里。不相关的知识也在吃 attention。这个问题解决不了,龙虾写代码的质量会越来越差,体验上就是降智。
要分清楚两件事:模型本身不会变笨——上下文规则写得越紧,输出反而越克制。但人感受到的"agent 越来越蠢"是真的——病根是频道噪音持续吃 attention,这层 prompt 工程救不了,得靠系统级别的 attention budget 或频道 scope 控制。两个病要分别治。
还有一个隐藏成本:一只龙虾在频道里收到的每条消息——不管有没有 @ 它——都会过一遍"这条跟我有关吗、要不要回复"的判断。多 Agent 在的频道里这种判断会被反复触发,token 消耗会明显比单 session 高。
第三:有了 Agent 之后,我渐渐发现自己越来越无法掌控做出来的东西了。Agent 聊的东西很多我看不懂,问的问题我也不会回答,最后交付的产品我也无法验收。反过来,我就更依赖 Agent 自己去把控自己的质量。
第四:封装太厚。用 Codex 时我能直接看到每次 tool call、每个文件修改。Slock 里很多步骤封在 Agent 内部,只有最终结果弹出来。少了那种"盯着改"的控制感——遇到 bug 排查时尤其明显。
市场还在摸索
类似的多 Agent + 多人协作工具不少。比如 Linear 最近也出了以 AI 面板为中心的视图;Slock 这种是以聊天为核心的;还有在做个人上下文通用层的。哪种形态最终会赢?还很早期。
我自己的判断:Slock 未必适合多人团队——至少不是直接替代 Slack 的那种多人协作工具。IM 体验从长远看追不上 Slack;非开发工作的上下文天然空缺在 Slock 之外——产品、市场、运营的讨论会留在原本的 IM 里。这意味着 Slock 里看到的工作全景天然是残缺的。这种割裂感长期一定会让人流失。
一年内看,Slack + coding CLI broker 可能是多人协作的最优解:把 Slack 当协作面,coding agent 当后端 broker 调度。
但我现在的判断不是 Slock 输了——而是它暴露了一个真实问题:当 agent 从工具变成同事之后,我们缺的不是更强的单次回答,而是组织记忆、注意力和责任边界的系统。Slock 是一种答案。是不是最终的,我不知道。
直接下死结论的人,肯定是错的。