Agent Eval

AI Agent 开发

从 Agent Loop 到 Harness、Tracing、Eval 和安全边界的阅读路径。

在 Mini Agent Harness 基础上，我做了一个最小 Agent Eval Harness，用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。