【Agent工程 | 领域剧本】Skill能封装动作,但封装不了经验:一个Know-how工程化的完整方案

摘要:Skill封装了工具调用,但封装不了判断、顺序和质量标准——这才是Agent工作流在同一个地方反复卡住的根因。

周会上,测试同学又甩过来一条 bug 单:模型输出的 JSON 字段顺序每次都不一样,上游解析报错了第三次。

负责这块的同学翻了翻对话记录,发现 Prompt 已经改了三个版本,每次都说“这次应该稳定了”,每次都在不同的边界条件下翻车。

旁边工位的同事补了一句:“这个场景你前两周不是刚调完吗?那个规则怎么又没了?”

没人说得清楚那个规则去了哪里。它存在于某次调试的对话里,存在于同事口头交接的备注里,但就是没有写进任何可以被 Agent 重复调用的地方。

每次重新跑任务,模型得现场推断:要不要先查一下有没有缓存?字段超长的时候走哪个分支?某个罕见错误码是重试还是直接告警?

这些判断,本质上是经验,不是指令。

Skill 封装了工具调用——一次调用,完成一个步骤,干干净净。但经验判断、流程约束、质量边界、失败记忆,这些东西放在哪里?

当前主流的 Agent 框架,几乎都在认真解决「怎么让模型调用工具」,却几乎没有人认真回答「怎么让模型记住这次为什么选了这条路径」。

这不是 Prompt 问题,这是 Know-how 无处安放的结构性困境。

根因拆解:Know-how 为什么无法装进一个 Skill

先说清楚什么是 Skill,什么是 Know-how。

Skill 是一个原子动作单元。你给模型一段指令,告诉它:遇到这个情况,调用这个工具,执行这一步。它做完了,Skill 的使命就结束了。

Skill 颗粒度清晰,边界明确,适合被重复使用。这是 Skill 的价值所在,也是它的边界所在。

Know-how 是一个复合体。

它至少包含四层东西:经验判断(什么情况下走 A 不走 B)、流程约束(这一步必须等上一步完成才能开始)、质量边界(输出至少要满足这几个条件才能过关)、失败记忆(上次在这个节点翻车是因为什么,这次不要再犯)。

用一个糙一点的比喻:Skill 是砖头,Know-how 是施工图纸。砖头可以垒得很整齐,但图纸丢了,楼就盖歪了。更难受的是,图纸上的每一笔经验,都是翻车翻出来的,你没法让模型靠现场推断把它长出来。

当前 Agent 框架里,Know-how 实际上散落在五个互不通信的层次里,每一个层次都有东西在漏:

输入条件层:模型拿到任务时,根本不知道该用什么背景知识

模型收到一个请求,首先需要判断:我有没有关于这个任务类型的上下文?上次处理同类任务的关键变量是什么?

但大多数 Agent 框架的输入层是“干净的”——模型每次都从零开始推断,缺少预加载的经验锚点。

OpenAI 研究主管 Lilian Weng 在《LLM Powered Autonomous Agents》中把 Agent 框架定义为「LLM + 规划 + 记忆 + 工具使用」,其中记忆被分成了短期记忆和长期记忆,但长期记忆怎么组织、怎么在合适的时机激活,框架本身没有给出可操作的方案1

决策规则层:边界条件全靠 Prompt 口述,模型每次现场猜

「如果金额超过十万,走审批流程;如果低于一万,直接通过」——这类规则在大多数项目里要么写在 Prompt 的角落,要么根本不写,让模型自己推断。

模型不是不会推断,但它每次推断都有概率猜错,特别是在低频边界条件下。一个规则写在 Prompt 里,它不会自动变成「模型在遇到这个条件时必须触发这个动作」的机制。

工具链编排层:节点前后依赖靠硬编码,扩展靠复制粘贴

Coze(扣子)和 Dify 这类平台的节点编排器把工具链可视化了出来,这是进步。

但当工具链里的某个节点需要根据运行结果动态选择下一步时,大多数团队的解法是:多写几个 if-else,或者干脆把整个分支写死。

吴恩达在介绍四种 Agentic Workflow 设计模式时,Planning(规划)模式的本质就是让 Agent 分解复杂任务并按计划执行,但前提是这个计划本身是结构化的2

如果没有结构化的计划输入,规划模式只是在“让模型自己猜路径”,而不是“让模型沿着一张经验地图走”。

失败分支层:翻车之后模型不知道该停还是该重试

大多数 Agent 在工具调用失败后做的是重试。但失败有很多种:网络超时的重试有意义,权限错误的重试没有意义,字段格式不匹配的重复调用是在浪费资源。

有些团队会在 Prompt 里加一行「如果失败三次就停止并告警」,但这条规则不会自动和「这个节点的失败历史」关联起来,每次失败都是从零判断。

验收与复盘层:输出质量靠人工 review,经验不回流

这可能是最重要也最容易被忽略的一层。

Agent 输出了一份报告,格式看起来对,但有几个术语用错了——上一次犯同样错误时,团队在群里讨论了十分钟得出的结论,这次模型重新跑任务时,这条经验完全不存在。

复盘机制不是「等翻车了再修 Prompt」,而是「翻车之后,经验能不能被结构化地写进可以自动触发的规则里」。

正文图解 1

正文图解 1

每次都在同一个节点重蹈覆辙,这感觉太熟悉了

当这五个层次各自为政时,Skill 能做的事就只剩下一件事:调用工具。至于调用的时机、路径的选择、失败后的策略、输出质量的校验,全部靠模型现场推断或者靠工程师现场补救。

这不是模型的错,是框架没有给 Know-how 找一个可以安放的结构。

吴恩达在红杉的演讲里把 Agentic Workflow 分成了四种模式:Reflection(反思)、Tool Use(工具使用)、Planning(规划)和 Multiagent Collaboration(多智能体协同)。

这个分类解决的是「Agent 可以怎么工作」的问题,但真正制约工程落地效果的,是 Know-how 有没有结构化的承载机制3

你让一个 Agent 做 Planning,但它手里没有经验地图,它规划的路径只能靠语言推理,而语言推理在真实工程场景里的不确定性远高于结构化规则。

这就是为什么大多数团队写完第一版 Agent 原型之后,都会陷入一个循环:上线 → 翻车 → 修 Prompt → 上线 → 另一个边界条件翻车 → 再修 Prompt。

Skill 每次都正常工作,问题出在 Skill 覆盖不到的地方。

前沿做法:Kimi K2.6 Agent Swarm 与 Skill 系统如何落地 Know-how

理论说完了,看工程前沿怎么做。

Kimi K2.6 是月之暗面近期开源的主力编程模型,它的 Agent Swarm 架构值得重点拆解4

在这个架构里,一个主 Agent 可以动态将任务分解为异构子任务,并发分配给最多 300 个子 Agent 执行,整个流程可以协调 4000 个步骤同时运行。

与 K2.5 相比,子 Agent 数量从 100 个扩展到 300 个,协调步骤从 1500 扩展到 4000,量级上了一个台阶。

这个规模意味着什么?意味着你不能在主 Agent 的 Prompt 里把所有子任务的决策规则全写进去——上下文塞不下,规则之间互相冲突,修改任何一个规则都可能影响其他路径。

这时候 Know-how 的结构化存储就从「nice to have」变成了「must have」。

K2.6 的解法是让主 Agent 作为自适应协调器,根据子 Agent 的技能档案动态匹配任务,子 Agent 各自持有自己的工具集、技能配置和持久化记忆上下文2

这个设计本质上是在说:Know-how 不是放在一个 Skill 里的,是分布在多个 Skill 里的,每个 Skill 只负责自己领域的判断和执行,主 Agent 负责跨 Skill 的协调判断。

OpenClaw Agent 在 Kimi K2.6 的生态里跑了 5 天自主工程工作流:监控 → 告警响应 → 修复 → 复盘全链路,覆盖了 RL infra 团队的真实工程场景。

在 Claw Bench 这个内部评测集上,K2.6 的工具调用成功率达到了 96.9%(Terminus-2 benchmark),任务完成率和工具调用准确率均显著超越 K2.53

这个 96.9% 是当前开源编程模型在 Terminal-Bench 2.0 上的最高档数据,它证明的不是「模型能力够了」,而是「当工具调用链路被结构化之后,模型可以可靠地完成长周期任务」。

这个数字背后还有一个关键信息:K2.6 在 Augment Code 的 beta 测试中表现出了显著的“手术精度”——当初始路径被阻塞时,它能主动切换到既有架构模式,找到隐藏的相关变更,把修复范围精确限制在真正的问题节点上3

这不是模型的通用推理能力,这是它对代码库结构的 Know-how 在起作用:知道这个项目是怎么组织的,知道这类问题通常在哪个模块出现,知道修复的时候要保持哪些不变。

这些 Know-how 不是模型出厂时就有的,而是在使用过程中通过 Skill 体系逐步积累的。

Google Cloud Tech 近期整理的 Agent Skill 五种设计模式,给出了更系统的解释5

Agent Skill 的核心文件是 SKILL.md,它不只是一段系统提示词,而是一个自成一体的功能单元,包含 metadata(元数据)、instructions(指令)、scripts(脚本)、references(参考文件)和 assets(资产文件)五个组成部分6

当一个 Agent 需要某个技能时,它不会一次性把所有信息都加载进上下文,而是通过一个渐进式披露(Progressive Disclosure)机制分三阶段工作:Discovery(发现阶段,看 metadata 判断是否需要这个 Skill)、Activation(激活阶段,加载 instructions 和 references)、Execution(执行阶段,按需调用 scripts 和 assets)。

这个设计的本质是把 Know-how 按需分配,而不是一次性全量塞进 Prompt。

以 Claude Plugins Skills 索引中收录的几个真实 Skill 为例7:Frontend Skill 封装了「当前项目的前端框架规范、组件模式、样式约定」,当模型需要写前端代码时才加载这个 Skill;

Spreadsheet Skill 封装了「本团队的数据格式规范、字段命名规则、校验逻辑」,模型处理表格数据时才激活;

PDF Skill 封装了「解析这个领域的专业 PDF 时,哪些术语需要特殊处理、哪些结构需要重点提取」。

每个 Skill 的边界是清晰的,职责是内聚的,主 Agent 根据任务类型自主判断加载哪个 Skill,不需要人工在 Prompt 里逐条声明。

Coze 和 Dify 的工作流编排器在这个方向上又往前走了一步2

Coze 的工作流节点编排器把多模态模型节点、工具节点、代码节点串在一起,允许用户在可视化界面里定义前后依赖关系和条件分支。

Dify 更激进地引入了一套 DSL(领域特定语言),工作流配置可以直接导出成 JSON 文件,在不同团队、不同项目之间复用8

ComfyUI 也在做类似的事:它把 Stable Diffusion 的推理流程拆成节点,用户可以导出自己配置的工作流 DSL,其他人在另一台机器上直接导入运行。

这些尝试的本质都是把经验固化成可复制的结构,而不是每次都让模型从语言推理里现场重建流程。

PRD又改了,但这回我已经有Playbook了,不慌

复刻路径:从高频任务到 Domain Playbook 的四步沉淀法

前沿案例看完了,回到普通工程团队能做的事。

Kimi K2.6 的 Agent Swarm 有 300 个子 Agent 协同,OpenClaw 能跑 5 天不宕机——这不是每个团队都能复制的规模,但里面的 Know-how 沉淀思路可以拆出来用1

我把这套思路简化成四个步骤,适合你在现有 Coze 工作流或自建 Agent 系统里直接落地。

第一步:识别高频任务的决策点

不是所有任务都值得沉淀成 Playbook。先问三个问题2

  • 这个任务重复出现≥3次了吗?

  • 每次人工介入的成本高吗?

  • 输出质量波动大吗?

如果三个答案里有两个以上是「是」,这个任务就值得做 Know-how 沉淀。

识别出来的任务,还要找到它的「决策点」——也就是「什么情况下走 A 路径、什么情况下走 B 路径」的边界条件。

举一个真实的例子:一个处理用户反馈工单的 Agent,每次遇到「用户提到退款但没有明确金额」,输出格式都不一样。根因是模型在现场判断「这算不算退款场景」,判断标准没被结构化。

这个边界条件就是决策点。找到它之后,才能进入第二步。

⚠️ 踩坑提醒 :一个任务的决策点不要超过 5 个。超过 5 个说明这个任务本身应该被拆成两个子任务,分别做 Know-how 沉淀,而不是硬塞进一个 Playbook。

第二步:把隐性经验翻译成显性规则

隐性经验是团队在 Slack 群里讨论出来的「这种情况一般走那边」,显性规则是结构化的「如果……则……;否则……」语句。

翻译的标准格式:

IF <条件A> THEN <执行路径X>
ELSE IF <条件B> THEN <执行路径Y>
ELSE <执行默认路径Z>

三个工具可以辅助这个过程3

LangGPT 框架 :把规则写进 Prompt 的步骤拆解里,让模型在执行前先过一遍条件判断链。

LangGPT 本质上是把 CoT(Chain of Thought)固化成了结构化的提示词模板。

CoT 思维链 :「让我们一步一步思考」的本质是把推理过程外化,外化的过程就是经验显性化的过程。

DeepSeek 等强推理模型出现之后,这条路变得更轻了——你不再需要写完整的思维链 Prompt,只需要给出一个判断方向,模型自己会推。

Dify DSL :如果你已经在用 Dify,可以把规则写成 DSL 配置,通过节点的条件分支实现,不需要在 Prompt 里塞大量 if-else 语句。

⚠️ 踩坑提醒 :规则不要超过 7 条。超过 7 条的规则集说明你还没有真正抽象出核心判断——你只是把原来的模糊经验原封不动地翻译了一遍。

超过 7 条就拆成子 Playbook,每个子 Playbook 只负责一个子任务。

第三步:设计工具链与失败分支

工具链编排在 Coze 或 Dify 的可视化编辑器里可以完成,但「失败分支」往往是最后才补的、也最容易忽略的部分2

失败分支的设计原则:不是所有失败都值得重试。

把失败分成三类:

失败类型 典型场景 建议策略
瞬时失败 网络超时、API 偶发抖动 重试 1-2 次,间隔指数退避
权限失败 缺少访问凭证、越权操作 快速终止,记录告警,不重试
格式失败 字段不匹配、类型错误 检查输入规格,终止并返回结构化错误

关键是在工具链的每个节点上预定义「重试上限」和「终止触发条件」,而不是让模型在每次失败时都现场决定「要不要再试一次」。

Coze 的工作流节点支持设置「节点超时时间」和「失败后分支选择」,Dify DSL 可以在节点配置里写 on_error 的处理逻辑。这两个平台的工具链编排能力已经足够支撑这套设计3

⚠️ 踩坑提醒 :不要把所有失败都设计成「重试」。权限类失败重试十次还是权限失败,格式类失败重试三次之后如果还没好,基本就不会好了。

快速终止 + 明确告警,比让 Agent 在原地打转更省 token,也更容易定位问题。

第四步:建立验收标准和复盘机制

验收标准(Output Rubric)是 Know-how 闭环的最后一环,也是大多数团队没有做的环节。

Rubric 的写法不是「输出质量要正确」,而是「输出必须满足以下具体条件」:

验收条件:
1. 字段顺序必须是:[field_A, field_B, field_C]
2. field_B 的取值范围:0-100(整数)
3. field_C 出现以下任一术语时触发特殊处理:
   - "退款" → 走退款子流程
   - "投诉" → 标记高优先级并通知客服
   - "建议" → 归档至产品反馈库
4. 输出 JSON 不含多余字段

当验收条件被写清楚了,复盘机制就可以自动化:Agent 输出 → 验收脚本跑检查 → 通过则流转,不通过则记录失败原因 → 失败原因汇总后进入规则迭代。

这个循环的核心是「失败经验能不能被写进下一个版本的 Playbook」。

Kimi K2.6 在 5 天自主工程工作流里做的事本质上就是这个:每次告警响应之后有复盘,复盘结论更新进 Skill 配置,下一次同类场景触发时不再需要人工介入1

正文图解 2

正文图解 2

规则写完才发现已经8条了,还得拆

四步做完之后,你应该手里有一份 Domain Playbook,包含:

  • 决策点清单(第一步产出)

  • 规则集,格式为「IF-THEN-ELSE」,不超过 7 条(第二步产出)

  • 工具链 DSL 配置,包含失败分支和终止条件(第三步产出)

  • Output Rubric 验收标准(第四步产出)

这份 Playbook 就是你团队在某个领域里的 Know-how 结构化沉淀。

它不是 Prompt 的替代品,而是 Prompt 的锚点——模型在执行任务之前,先加载这个 Playbook,再按照规则去判断、去选择工具、去处理边界情况。

渐进式披露:让 Playbook 不要一次把模型撑死

还有一个实现细节值得单独说。

Google Cloud Tech 整理的 Agent Skill 五种设计模式里,有一个「渐进式披露」(Progressive Disclosure)机制4

Agent 不需要在每次任务开始时就把整个 Playbook 加载进上下文,而是分三阶段工作:

Discovery 阶段 :Agent 只看 metadata(这个 Skill 叫什么、什么场景用),判断当前任务是否需要这个 Skill。Activation 阶段 :确认需要后,加载 instructions(规则集)和 references(验收标准),进入规划阶段。Execution 阶段 :按需调用 scripts(工具链脚本)和 assets(模板、样例数据),开始执行。

这套机制在 SKILL.md 的结构里天然支持:metadata 字段很轻,加载成本低;instructions 和 references 在需要时才进上下文;

scripts 和 assets 按需调用,不一次性撑满上下文窗口。

如果你的团队在用 Coze 或者自建 Agent 系统,这套渐进式披露的思路可以直接迁移过去:把 Playbook 拆成「轻 metadata + 结构化规则 + 可调用脚本」三层,Agent 在 Discovery 阶段只读 metadata,判断是否需要激活这个 Playbook,不需要则跳过,需要则加载后续层。

这个设计对长周期任务特别重要。Kimi K2.6 的 5 天自主工作流之所以能跑下来,就是因为它的 Skill 系统支持这种分层激活,而不是每次都从零开始加载所有上下文1

四步还没跑通,上线deadline已经到了

边界与风险:过度脚本化与过度自由之间的工程平衡

四步沉淀法听起来很顺,但实际操作中最大的陷阱不是「不会做」,而是「做过头」。

我见过最典型的案例:一个团队花了三周把客服工单处理的每个边界条件都写成规则,最后 Playbook 里有 47 条 IF-THEN 语句。

模型每次处理任务,光是规则匹配就要跑 40 多次判断,token 消耗是预期的 3 倍,而且新场景一来还是接不住——因为规则没有覆盖的地方,模型直接宕机了。

这不是个例。这是过度脚本化的普遍症状。

过度脚本化的信号

三个信号帮你判断 Playbook 是不是已经超载了:

第一个信号:每个边界条件都重试 3 次以上。 模型在规则覆盖的边界里反复试探,说明规则之间的缝隙太多,模型在努力填补你设计时的遗漏。

这种情况下加规则是死循环,正确做法是放宽某几条规则的约束条件,让模型有空间自主判断。第二个信号:新场景出现时人工介入频率急剧上升。 Playbook 跑得好,突然来了一个边界外的请求,结果模型既不执行也不报错,直接挂起。这是因为规则集已经把模型的自主判断空间压没了——它只会执行规则,规则没写的它不敢碰。

第三个信号:规则集超过 7 条,且无法拆分成子 Playbook。 这是一个硬指标。

我在第二步的踩坑提醒里提过,超过 7 条的规则集说明你还没有真正抽象出核心判断——你只是把原来的模糊经验原封不动地翻译成了 if-else 语句1

过度脚本化的根本原因是设计者把「经验」和「规则」混为一谈。

经验里包含判断、方向、优先级,这些不能被翻译成精确的条件语句,只能被翻译成「在这种情况下的优先选择是什么」——这类判断应该留给模型在执行时自主推理,而不是被预埋在规则里。

过度自由的信号

另一端的风险是:规则太少,模型每次处理同类任务输出质量波动大。

典型症状:同一批客服工单,模型上周把「退款」类请求路由到了工单系统,这周就路由到了财务系统。字段名称今天用英文,明天用中文,后天首字母大写。

验收脚本跑不过,团队开始怀疑模型能力不行——但根因是领域经验没有被结构化成背景知识,模型每次执行都是在从零推理2

过度自由的另一个信号是术语校验失败率高。领域内的专有名词、缩略语、标准化表述没有在 Playbook 里被标注,模型在生成输出时随意替换,用户体验的一致性无法保证。

根本原因是缺少「经验作为背景知识」的锚点。模型不是不会,是没有被告知「我们这里一般怎么处理这种情况」。

判断标准:规则优先还是自主判断

这不是一个非此即彼的选择,而是一个需要在每个 Playbook 设计之初就明确的比例问题。

有一条经验判断线3

高确定性 + 合规要求严格 + 输出必须可审计 → 规则优先
创意类任务 + 探索性分析 + 边界条件模糊 → 自主判断

财务报销审核、法律合同审查、医疗诊断辅助——这类场景必须规则优先,模型的自主空间越小越好,每一个决策节点都必须有明确的规则支撑。

内容创作、用户调研、竞品分析——这类场景适合自主判断,Playbook 只定义输入格式、输出结构和质量底线,执行过程中的判断交给模型根据上下文推理。

一个实用的做法是:在 Playbook 的 metadata 里加一个 autonomy_level 字段,取值从 1 到 5。1 代表「几乎纯规则」,5 代表「几乎纯自主」。

团队成员在设计阶段就明确这个字段的值,后续的规则数量、验收严格度、人工介入频率都跟着这个值来校准,而不是凭感觉加规则或删规则。

这条线的上限在哪里?

Kimi K2.6 在 Terminal-Bench 2.0 里做到了 96.9% 的工具调用成功率4,这意味着在高度结构化的工程任务里,规则优先的上限可以非常接近完美执行。

但这个数字是工程任务——确定性高、边界清晰、验收标准明确。换到创意写作或用户访谈这类场景,强行追求 96.9% 的执行一致性,反而会把模型的创造力压死。

正文图解 3

正文图解 3

规则我写的,出了事还是我背锅

写在最后:Know-how 是 Agent 工作流的护城河

写到这里,我想直接说一个判断:Agent 的能力会趋同,模型厂商的差距会越来越小,但 Know-how 编译能力才是团队真正的差异化壁垒。

Kimi K2.6 能跑 5 天自主工程工作流,OpenClaw 能协同 300 个子 Agent 做复杂任务,Coze 和 Dify 把工作流编排做到了消费级——这些能力不是任何一个团队独占的护城河,因为底层模型在快速收敛,工具链在快速标准化。

今天你觉得领先的东西,12 个月后可能就是开源仓库里的一个模板。

但 Know-how 不一样。

Know-how 是你们团队在某个垂直领域积累的决策经验、失败记忆、质量标准和验收规则。这些东西没有被任何模型预训练过,也没有被任何开源项目标准化过。

它只能靠你们自己在一次次任务执行、一次次失败复盘、一次次规则迭代里慢慢沉淀出来。

体力劳动靠工具,脑力劳动靠经验,AI 时代靠 Know-how 的结构化。

这句话听起来有点虚,但它在我的工程实践里是真实的:当团队的 Domain Playbook 积累到第三个版本的时候,Agent 处理同类任务的平均 token 消耗下降了 40%,人工介入频率从每次任务 2-3 次降到了每周 1-2 次。

不是模型变强了,是 Playbook 变厚了,模型有了更可靠的判断锚点。

Know-how 编译不是一次性的工作。它是一个循环:任务执行 → 失败记录 → 规则迭代 → Playbook 更新 → 下一轮执行。

这个循环转得越快,团队在某个领域里的 Agent 能力就越难被复制。

所以最后我想问你一个问题,不是为了求互动,是真的想知道你在哪个环节卡住了:

你所在的团队,目前 Know-how 缺失最深的是 Skill 层(工具调用不精准)、规则层(边界条件没有结构化),还是复盘层(失败经验没有被写进下一个版本的 Playbook)?

这三个层缺失的症状不一样,修复路径也不一样。Skill 层缺了,模型每次调用工具都打偏;规则层缺了,模型输出质量忽高忽低;复盘层缺了,同样的错误犯两遍,Playbook 永远停在 1.0。

评论区告诉我你卡在哪一层,我来告诉你从哪一步开始修。

好了,我去搬砖了,Playbook还等着我更新呢

参考文献

  1. 又见2050:用AI重塑产品工作流- 53AI-AI知识库|企业AI...

  2. Skill檔案怎麼寫? Google提出「5大AgentSkill...

  3. AI 工程师 Field Guide:Skills that get you hired(面试准备) - baseline expectations, differentia...

  4. Kimi K2.6 Tech Blog: Advancing Open-SourceCoding

点这里一键关注『计算机魔术师』

如果浏览器无法直接唤起微信,可在微信内打开公众号主页:计算机魔术师

上一篇:
【工程实践 | Monorepo+AI工作流】当5个AI Coding Agent同时在Linear上拉PR:Symphony解决的不是能力问题,是协调问题
下一篇:
【Agent架构 | OpenAI Symphony】把 Linear 变成 AI 编程战队指挥部:为什么代码生成不是 AI 工作流真正的瓶颈

分享到这些地方