Agent开发笔记(4)Code Agent 的 Sandbox 和 Tool Permission
在 Eval Harness 之后,我继续给 Mini Agent Harness 加上工具风险等级、命令策略、项目目录沙箱、approval 中断点和安全 eval,让 Code Agent 的行动变得可控、可审计、可评测。
在 Eval Harness 之后,我继续给 Mini Agent Harness 加上工具风险等级、命令策略、项目目录沙箱、approval 中断点和安全 eval,让 Code Agent 的行动变得可控、可审计、可评测。
从 Agent Loop 到 Harness、Tracing、Eval 和安全边界的阅读路径。
在 Mini Agent Harness 基础上,我做了一个最小 Agent Eval Harness,用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。
在最小 Agent Loop 基础上,我继续加入了结构化 trace、trace 回放、统一工具错误、错误恢复提示和初版上下文压缩,开始理解 Agent Harness 真正要解决的问题。