Agent开发笔记(3)从Agent Eval看为什么llm和harness是共同优化的整体在 Mini Agent Harness 基础上,我做了一个最小 Agent Eval Harness,用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。