AI 应用

Agent开发笔记（3）从Agent Eval看为什么llm和harness是共同优化的整体

在 Mini Agent Harness 基础上，我做了一个最小 Agent Eval Harness，用任务集、trace、规则评测和失败归因来判断 Agent 改动之后到底有没有变好。

Agent开发笔记（2）从 Agent Loop 到 Mini Agent Harness

在最小 Agent Loop 基础上，我继续加入了结构化 trace、trace 回放、统一工具错误、错误恢复提示和初版上下文压缩，开始理解 Agent Harness 真正要解决的问题。

Agent开发笔记（1）我第一次手写 Agent Loop 遇到的问题

不用 LangChain，手写了一个最小 Agent Loop。目标并不复杂，只支持 3 个工具： read_file(path) write_file(path, content) run_shell(command) 然后让模型自己决定什么时候调用工具，什么时候直接回答用户。真正写起来之后，我发现 Agent Loop 和普通 Chatbot 的区别，比我原来想得更大。普通 Chatbot 更像是“一问一答”，而 Agent Loop 更像是“模型决策一次，程序执行一次，再把结果反馈回去继续决策”的循环。 ...

Vibe Coding AI 应用原型时，别让“过度工程化”掩盖了真正的问题

最近在使用 Coding Agent 辅助开发一些 AI 应用原型时，我有一个越来越强烈的感受：在做小型项目原型，尤其是偏 vibe coding 的探索型项目时，前期文档并不是越详细越好。通常我们开始一个项目时，会先开启 Plan 模式，让 AI 帮我们写一份比较完整的 PRD 或技术方案。这个流程本身没有问题，它可以帮助我们快速梳理功能边界、页面结构、数据流和实现路径。但如果遇到一些“特别爱思考”的模型，比如 MiniMax-M3 这类模型，它可能不只是帮你规划产品功能，而是把每个模块、每个函数，甚至异常处理和 fallback 方案都提前写得非常细。 ...