Agent开发笔记(3)从Agent Eval看为什么llm和harness是共同优化的整体

在 Mini Agent Harness 基础上,我做了一个最小 Agent Eval Harness,用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。

2026-07-02 · 12 min · 5532 words · Weiuou

Agent开发笔记(2)从 Agent Loop 到 Mini Agent Harness

在最小 Agent Loop 基础上,我继续加入了结构化 trace、trace 回放、统一工具错误、错误恢复提示和初版上下文压缩,开始理解 Agent Harness 真正要解决的问题。

2026-07-01 · 10 min · 4510 words · Weiuou

Agent开发笔记(1)我第一次手写 Agent Loop 遇到的问题

不用 LangChain,手写了一个最小 Agent Loop。目标并不复杂,只支持 3 个工具: read_file(path) write_file(path, content) run_shell(command) 然后让模型自己决定什么时候调用工具,什么时候直接回答用户。 真正写起来之后,我发现 Agent Loop 和普通 Chatbot 的区别,比我原来想得更大。普通 Chatbot 更像是“一问一答”,而 Agent Loop 更像是“模型决策一次,程序执行一次,再把结果反馈回去继续决策”的循环。 ...

2026-06-29 · 4 min · 1633 words · Weiuou

Vibe Coding AI 应用原型时,别让“过度工程化”掩盖了真正的问题

最近在使用 Coding Agent 辅助开发一些 AI 应用原型时,我有一个越来越强烈的感受:在做小型项目原型,尤其是偏 vibe coding 的探索型项目时,前期文档并不是越详细越好。 通常我们开始一个项目时,会先开启 Plan 模式,让 AI 帮我们写一份比较完整的 PRD 或技术方案。这个流程本身没有问题,它可以帮助我们快速梳理功能边界、页面结构、数据流和实现路径。但如果遇到一些“特别爱思考”的模型,比如 MiniMax-M3 这类模型,它可能不只是帮你规划产品功能,而是把每个模块、每个函数,甚至异常处理和 fallback 方案都提前写得非常细。 ...

2026-06-24 · 3 min · 1421 words · Weiuou