约 448 字
阅读时间 2 分钟
反脆弱 Harness:让系统因为失败变稳,而不是因为失败更乱
把失败归因、质量分级、background cleanup 和 anti-entropy 做成默认机制
这篇先面对哪种真正难缠的失败#
到了系统长时间运行的阶段,最麻烦的失败已经不再是单次报错,而是这种更贵的东西:
- 一次错误判断被写回长期资产,后面持续污染。
- 一个过期规则继续在误导新任务。
- 一次坏状态没有被及时清理,后面越来越难回收。
- 多个 agent 把同一类错误越传越真,最后整个系统一起偏航。
为什么反脆弱 Harness 是后半场真正的门槛#
这一章会把“失败之后系统怎么变稳”拆成几个默认机制:
- failure taxonomy 和质量分级怎么建立。
- 背景清理、doc gardening、garbage collection 为什么不是边角活。
- 哪些失败必须立刻升级成 rule、verifier、skill 或 cleanup job。
- 为什么真正成熟的 Harness,不只是会防错,还会在犯错之后学会收敛。
这一章想收住的是一个很工程化的判断:
反脆弱不是口号,它只是系统终于学会把失败当成可回写、可治理、可降低复发率的资产。
反脆弱 Harness:让系统因为失败变稳,而不是因为失败更乱
更新于
2026-04-18