Agent

Agent开发笔记（4）Code Agent 的 Sandbox 和 Tool Permission

在 Eval Harness 之后，我继续给 Mini Agent Harness 加上工具风险等级、命令策略、项目目录沙箱、approval 中断点和安全 eval，让 Code Agent 的行动变得可控、可审计、可评测。

Agent开发中的常见问题

从 Agent 应用开发角度看，最需要优先考虑的几类安全和工程问题：过度代理能力、提示注入、不当输出处理和敏感信息泄露。

Agent开发笔记（3）从Agent Eval看为什么llm和harness是共同优化的整体

在 Mini Agent Harness 基础上，我做了一个最小 Agent Eval Harness，用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。

Agent开发笔记（2）从 Agent Loop 到 Mini Agent Harness

在最小 Agent Loop 基础上，我继续加入了结构化 trace、trace 回放、统一工具错误、错误恢复提示和初版上下文压缩，开始理解 Agent Harness 真正要解决的问题。

Agent Tracing：理解 Agent 执行过程的可观测性

Agent workflow 不再只是一次模型调用，而是一条由模型生成、工具调用、上下文更新、guardrail 和 handoff 组成的执行链路。Tracing 可以把这条链路记录成可观察、可调试的执行轨迹。

Agent开发笔记（1）我第一次手写 Agent Loop 遇到的问题

不用 LangChain，手写了一个最小 Agent Loop。目标并不复杂，只支持 3 个工具： read_file(path) write_file(path, content) run_shell(command) 然后让模型自己决定什么时候调用工具，什么时候直接回答用户。真正写起来之后，我发现 Agent Loop 和普通 Chatbot 的区别，比我原来想得更大。普通 Chatbot 更像是“一问一答”，而 Agent Loop 更像是“模型决策一次，程序执行一次，再把结果反馈回去继续决策”的循环。 ...