Wh1isper's Blog

AI Native 组织思考

2026-02-08T01:51:00.000Z

前言： 聊到了 AI Native 组织的形态，记录几个当下的直觉。

1. 组织即灵魂

同样是基于 LLM，OpenAI 做出来的产品像大众工具，DeepMind 做出来的像科学仪器。产品不再是工业流水线上的标准化件，而是组织认知的直接投射。

直觉： 不同的组织“性格”，决定了 AI 产品的“灵魂”。

2. 网络式共振

在 AI 时代，传统的层级式指令管理正在失效。因为创新的源头往往在一线研发的探索中涌现。

直觉： 未来的组织更像是一个“超级兴趣小组”。大家因为一个远期目标聚在一起，通过高频的网络式协作（你读一篇 Paper，我试一个 Demo），把个体的认知拉齐、拉高。最终那个超越时代的产品，是在整个团队高认知水位上自然浮现的结果。

3. 商业化是真实世界的 RLHF

商业化不仅仅是为了生存，它更是一个高价值信号过滤器。

免费用户的反馈往往是“好玩”（Novelty），付费用户的反馈往往是“没用”或“不准”（Utility）。只有那些愿意付费的用户反馈，才是最真实的 Reward Model，迫使团队直面真实世界的复杂性（Corner Cases），把“玩具”打磨成“工具”。

直觉： 商业化把“用户反馈”转化为了高质量的“训练数据”。

注脚：组织环境即 RL Environment

如果我们把组织看作一个强化学习（RL）的环境：

Agent： 每一个团队成员。
Action： 每天的探索、决策、代码、讨论。
Reward： 组织鼓励什么？是快速试错给正反馈，还是按部就班给正反馈？
State： 整个团队当前的认知水位、技术栈、氛围。

如果不精心设计这个 Environment 的 Reward Function，你就得不到那种自驱、涌现式的创新。

AI 辅助开发下，如何保持项目一致性

2026-02-02T15:00:00.000Z

AI 正在改变软件开发的方式。Cursor、Claude Code、Copilot 这些工具让编码速度提升了数倍，但也带来了新的挑战：代码写得太快，理解跟不上，项目很容易腐化。

这篇文章分享我在 AI 辅助开发中保持项目一致性的一些实践。

核心洞察：瓶颈变了

传统软件开发的瓶颈是编码。设计完成后，大量时间花在实现上。

flowchart LR    A[设计] --> B[编码]    B --> C[Review]    C --> D[修改]    D --> B

AI 辅助开发打破了这个瓶颈。编码变得很快，但新的问题出现了：

flowchart LR    A[设计] --> B[AI编码]    B --> C[代码量暴增]    C --> D[理解跟不上]    D --> E[架构腐化]    E --> F[更多patch]    F --> E

编码不再是瓶颈，理解和架构才是。

方法论：控制点上移

要打破这个负循环，关键是把控制点从”代码”上移到”架构”。

flowchart TB    subgraph Control[控制层]        A[Spec文档]        B[Owner审阅]    end    subgraph Constraint[约束层]        C[agents.md]        D[类型系统]        E[项目规则]    end    subgraph Execution[执行层]        F[AI生成代码]        G[Prototype]        H[生产代码]    end    A --> B    B --> C    B --> D    B --> E    C --> F    D --> F    E --> F    F --> G    G -->|验证通过| H    G -->|需要调整| A

1. Spec 文档驱动

把脑海里的架构变成和 AI 讨论的 spec 文档：

概要设计：系统边界、模块划分、核心流程
架构图/流程图：用 mermaid 或手绘，让 AI 理解上下文
DDD 思路：bounded context、聚合、领域语言

不需要细到接口签名。模块边界清晰，AI 就不会跨模块乱搞。

flowchart LR    A[脑海中的架构] --> B[Spec文档]    B --> C[与AI讨论]    C --> D[AI生成代码]    D --> E[代码符合架构]

2. 自底向上构建

很多人习惯自顶向下：先设计接口，再实现细节。但在 AI 辅助开发中，我发现自底向上更有效：

先做配置：配置是系统的”骨架”，定下来后 AI 生成的代码就有约束
先定类型：类型系统是天然的约束，让 AI 在框里活动
从不易变的开始：基础设施、工具函数、配置管理

这样做的好处：

更容易获得良好的抽象
更容易进行测试覆盖
AI 生成的代码有锚点，不会飘

3. 约束前置

与其事后 review 代码，不如事前约束 AI：

flowchart LR    subgraph Constraints[约束]        A[agents.md]        B[pyright]        C[ESLint]        D[项目规则]    end    E[AI] --> Constraints    Constraints --> F[符合规范的代码]

agents.md / AGENTS.md：写清楚项目的架构、约定、禁忌
类型系统：pyright、TypeScript，静态分析是最好的约束
项目规则：命名规范、目录结构、commit 格式

AI 读了这些约束，生成的代码一致性会好很多。

4. 早期重构

重构应该在最早的时候进行，而不是等代码堆积成山：

代码量小，重构成本低
最容易利用 AI 的生成能力
最不容易受幻觉影响

等到项目复杂了再重构，AI 会产生更多幻觉，因为它无法完全理解所有上下文。

5. 快速验证，慎重生产

flowchart LR    A[想法] --> B[Prototype]    B --> C{验证}    C -->|通过| D[生产化]    C -->|失败| E[调整想法]    E --> A    D --> F[留重构空间]

尽快 prototype：用 AI 快速验证想法
慎重生产：验证通过后再决定是否生产化
留重构空间：不要过早固化，保持灵活性

正反馈循环

好的实践会形成正反馈：

flowchart LR    A[好架构] --> B[AI生成正确代码]    B --> C[省时间]    C --> D[优化架构]    D --> A

差的实践会形成负反馈（要避免）：

flowchart LR    A[烂架构] --> B[代码到处patch]    B --> C[越来越乱]    C --> D[没时间重构]    D --> A

团队协作

在多人协作中，一致性更重要：

项目有 Owner：Owner 审阅 spec，保持架构一致性
Review spec，不只是 review 代码：比传统 code review 更高效
AI review 辅助：让 AI 检查代码是否符合 spec

flowchart TB    A[Owner] -->|审阅| B[Spec]    B -->|指导| C[开发者1]    B -->|指导| D[开发者2]    C --> E[代码]    D --> E    E -->|AI Review| F{符合Spec}    F -->|是| G[合并]    F -->|否| H[修改]    H --> E

工程师角色转变

AI 辅助开发正在改变工程师的角色：

传统	AI 辅助
写代码	设计架构
Debug	审阅 spec
重复劳动	创造性思考

工程师的核心价值变成了：

架构抽象能力：基于当前理解设计合理的架构
业务理解：对当前情况和未来进行抉择
质量把控：确保 AI 生成的代码符合预期

这本就是架构师的任务。有了 AI 辅助编码，我们可以有更多时间放在设计更容易维护的架构上，反过来又方便了 AI 编码，实现正反馈。

总结

AI 辅助开发的核心是人机协作：

人负责：架构决策、业务理解、质量把控
AI 负责：快速实现、重复劳动、代码生成

保持项目一致性的关键：

控制点上移：从代码到 spec
约束前置：用规则和工具约束 AI
早期重构：趁代码量小的时候
快速验证：prototype 快，生产慢
正反馈循环：好架构 → 好代码 → 更好架构

AI 不会取代工程师，但会取代不会用 AI 的工程师。掌握 AI 辅助开发的方法论，才能在这个时代保持竞争力。

Agent 产品的软件腐化:一种新型技术债

2026-02-01T14:22:00.000Z

引子

最近和 AI 讨论了一个有意思的话题:在 AI Native 时代,Agent 产品存在一种独特的”软件腐化”——它不是传统意义上的代码腐化,而是发生在智能层面的劣化。

传统软件腐化讲的是代码层面:重复、耦合、复杂度上升。Agent 腐化是另一种东西——系统逐渐变得更蠢、更僵化、更难迭代,而且这种劣化在常规指标上往往不可见。

一个典型场景

产品经理说:”用户一提到数据库,就推荐我们的数据库产品,这样能提升功能渗透率。”

技术团队加上了这条规则。渗透率确实上去了。

然后产品经理又说:”用户提到性能问题,就推荐我们的监控方案。”

又加了一条规则。

一年后,Agent 里有 50 条这样的规则。产品经理拿着一个”纯净版”Agent 对比说:”为什么我们的 Agent 比这个蠢这么多?技术团队要提高智能水平。”

技术团队:”……”

腐化的几种形态

1. 规则堆积 (Rule Accumulation)

每条规则单独看都合理,加起来就是:

Prompt 越来越长,优先级冲突难以调试
模型的自主判断空间被不断压缩
改一个地方,另一个地方出 bug

最讽刺的是:你花钱买了 GPT-4 的智能,然后用 if-else 覆盖了它的判断。

2. 上下文膨胀 (Context Bloat)

为了让 Agent “更懂用户”,不断往 context 里塞东西:用户历史、产品信息、各种 metadata。

结果:上下文窗口被低价值信息填满,真正重要的信号被稀释,模型”注意力”被分散。

3. 工具蔓延 (Tool Sprawl)

一开始 5 个工具,边界清晰。后来 50 个工具,功能重叠,Agent 自己都不知道该调哪个。

工具选择错误率上升,维护成本爆炸。

4. 评估漂移 (Evaluation Drift)

早期评估 Agent 真正的智能水平。后来评估变成”有没有触发这个规则””有没有推荐这个产品”。

指标和智能脱钩,团队在优化错误的东西,智能下降但指标上升,问题被掩盖。

5. 人设分裂 (Persona Fragmentation)

产品说要”专业可靠”,运营说要”活泼有趣能带货”,客服说要”严谨不能出错”。

同一个 Agent 被拉向不同方向,最后人格分裂,用户感知”这个 AI 很奇怪”。

温水煮青蛙

这种腐化最危险的地方在于:它是渐进的。

每条规则单独看都”有效”——短期数据确实在涨:

功能渗透率:↑
转化率:持平或略升
结论:”有效,继续加”

但债务在暗处累积。用户体验不是一下子变差,是慢慢变得”不那么聪明”。用户说不出哪里不对,但就是不想用了。留存慢慢掉,归因不到任何单一功能。

等你意识到问题的时候,系统已经改不动了。

根源在哪

短期指标驱动:每个决策都优化局部指标,没人为 Agent 整体智能负责。
技术缺乏话语权:技术知道加规则有问题,但产品数据说”有效”,技术说了不算。
因果被切断:产品加规则拿到渗透率功劳,智能下降技术背锅。制造债务的人不承担后果。
没有”智能债务”概念:传统技术债有行业共识,Agent 智能债没有度量、没有意识。

如何对抗

借鉴软件工程的经验

在传统软件工程中,架构师的职责是保持一致性、做对的抽象、防止腐化,辅以及时重构。

Agent 产品需要类似的角色:智能架构师。

智能架构师的职责

定义 Agent 的”宪法”:核心行为准则,所有规则都要服从它。
守护 Prompt 的一致性:不是谁都能往里加东西。
把控工具边界:新工具要审核,工具粒度要合理。
拥有否决权:产品要加破坏智能的规则,可以说不。
维护纯净 baseline:始终有一个无业务污染的版本作为参照。

建立”智能债务”指标

硬编码规则数量
Prompt 复杂度
模型自主决策比例 vs 规则覆盖比例
纯净版 vs 当前版的智能评分差距

让债务可见,而不是只看功能渗透率。

流程机制

偿还计划:每条规则要有下线条件和时间,不是加了就永远在。
定期清理:每季度 review 所有硬编码逻辑。
决策权和后果绑定:谁加的规则,谁对智能指标负责。

组织架构

1
2
3

Product (What/Why) ←→ Agent Architect (守护智能) ←→ Engineering (How)
                              ↓
                      Evaluation/QA (度量智能)

关键:Agent Architect 要独立,有独立 KPI,可以 challenge 产品和工程双方。

AI Native 时代的特殊性

这里有一个更深的问题:在 Agent 产品中,技术团队的角色发生了变化。

传统软件:PM 定义 What/Why,工程定义 How。

但 Agent 不一样:

能力边界不清晰:能不能做到、做到什么程度,取决于技术实现。
How 决定了 What 的可能性:用什么模型、怎么做 tool calling、怎么处理上下文——这些不是实现细节,是产品形态的根本约束。
体验是涌现的:Agent 的体验取决于它”怎么思考”,这完全是技术层面的事。

所以,Agent 产品中的技术团队,不只是 How,而是要参与 Why:

Why this approach works
What’s actually possible
Where the real value is

这不是越界,是 Agent 产品的本质要求。

写在最后

Google DORA 2025 报告有一句话说得很好:

AI doesn’t fix a team; it amplifies what’s already there.

Agent 腐化本质上是技术债 + 组织债的结合体。每个人都在优化自己的局部指标,没人看整体——这和 LLM “优先保证局部功能正确,而不是全局架构一致性”是同一个问题。

只解决技术层面不够,需要组织层面的改变。

如果你也在做 Agent 产品,希望这篇文章能让你在下次加规则之前,多问一句:这条规则的智能债务是什么?谁来偿还?

Environment as Dependency Inversion

2026-01-19T16:00:00.000Z

When building AI agents, developers almost instinctively reach for file system operations and shell commands as their first tools. This isn’t accidental - it reflects a deeply ingrained assumption: the operating system is the natural environment for agents to act in.

In this post, we explore how the Environment abstraction in pai-agent-sdk implements dependency inversion, why this design embeds OS-centric assumptions, and how it shapes everything from tool implementation to context engineering.

The Instinctive Path

Watch any developer build their first agent. The conversation typically goes:

“I need my agent to do things”
“Doing things means reading/writing files and running commands”
“Therefore, I need FileOperator and Shell”

This mental model is so pervasive that it feels like the only way. But it’s actually a specific architectural choice that assumes agents operate in OS-like environments.

Dependency Inversion: The Code Level

From a pure code perspective, pai-agent-sdk implements classic dependency inversion:

graph TB    subgraph "High-Level Modules"        Agent[Agent]        Toolset[Toolset]    end    subgraph "Abstractions"        Env[Environment ABC]        FO[FileOperator Protocol]        SH[Shell Protocol]    end    subgraph "Low-Level Implementations"        Local[LocalEnvironment]        Docker[DockerEnvironment]    end    Agent --> Env    Toolset --> Env    Env --> FO    Env --> SH    Local -.->|implements| Env    Docker -.->|implements| Env

Tools don’t know whether they’re running locally or in a container:

class ViewTool(BaseTool):
    async def call(self, ctx: RunContext[AgentContext], file_path: str) -> str:
        # Uses abstraction, not concrete implementation
        file_operator = ctx.deps.file_operator
        content = await file_operator.read_file(file_path)
        return content

class ShellTool(BaseTool):
    async def call(self, ctx: RunContext[AgentContext], command: str) -> ShellResult:
        # Same pattern - abstract Shell interface
        shell = ctx.deps.shell
        exit_code, stdout, stderr = await shell.execute(command)
        return ShellResult(stdout=stdout, stderr=stderr, return_code=exit_code)

This is textbook dependency inversion:

High-level modules (Agent, Tools) depend on abstractions
Low-level modules (LocalEnvironment, DockerEnvironment) implement abstractions
Abstractions don’t depend on details

The Conceptual Leakage

But here’s the subtle issue: the shape of our abstractions is molded by OS concepts.

Abstraction	Derived From
`FileOperator`	POSIX filesystem semantics
`Shell`	Unix shell execution model
`ResourceRegistry`	Process resource management
`tmp_dir`	`/tmp` directory concept

Even when we successfully invert dependencies at the code level, we’re still thinking in terms of “files”, “directories”, “commands”, and “environment variables”. The abstraction has absorbed the OS worldview.

This isn’t necessarily wrong - it’s a pragmatic choice. But it limits our imagination when considering alternative environments.

The Ripple Effect: Tool Availability

The OS-centric design manifests in how tools check their availability:

class ShellTool(BaseTool):
    def is_available(self, ctx: RunContext[AgentContext]) -> bool:
        # Tool becomes unavailable if shell isn't configured
        if ctx.deps.shell is None:
            return False
        return True

This creates an implicit contract: environments without shell capability simply can’t use shell-based tools. The tool system gracefully degrades, but the degradation path is defined by OS capabilities.

Context Engineering: Environment Shapes the Prompt

Perhaps the most profound impact is on context engineering. The environment doesn’t just provide tools - it shapes how we communicate with the model.

# From filters/environment_instructions.py
async def inject_environment_instructions(
    ctx: RunContext[Any],
    message_history: list[ModelMessage],
) -> list[ModelMessage]:
    # Get environment-specific instructions
    instructions = await env.get_context_instructions()

    # Inject into the conversation
    env_part = UserPromptPart(content=instructions)
    last_request.parts = [*last_request.parts, env_part]

What does get_context_instructions() typically return? Something like:

<environment-context>
  <file-system>
    <default-directory>/home/user/projectdefault-directory>
    <allowed-paths>/home/user/project, /tmp/workspaceallowed-paths>
  file-system>
  <shell-execution>
    <default-timeout>30sdefault-timeout>
    <working-directory>/home/user/projectworking-directory>
  shell-execution>
environment-context>

The model receives instructions framed entirely in OS terminology. We’re not just providing tools - we’re teaching the model to think in terms of paths, directories, and shell commands.

The Three Layers of Environment Influence

graph LR    subgraph "1. Tool Implementation"        TI[Tools use FileOperator/Shell abstractions]    end    subgraph "2. Tool Availability"        TA[Tools check environment capabilities]    end    subgraph "3. Context Engineering"        CE[Prompts include environment instructions]    end    Env[Environment] --> TI    Env --> TA    Env --> CE    TI --> Agent    TA --> Agent    CE --> Agent

Tool Implementation: Tools operate through environment abstractions
Tool Availability: Tools self-disable based on environment capabilities
Context Engineering: System prompts are shaped by environment context

All three layers reinforce the OS-as-environment paradigm.

Alternative Perspectives

What if we didn’t assume OS as the default? Consider alternative environment types:

Environment Type	Core Abstractions	Use Case
OS Environment	FileOperator, Shell	Code agents, automation
API Environment	HTTPClient, AuthProvider	API-only agents
Data Environment	QueryExecutor, SchemaProvider	Data analysis agents
Conversation Environment	MessageBus, StateStore	Pure dialogue agents
Browser Environment	DOMOperator, NavigationController	Web automation agents

Each would require different:

Tool implementations
Availability checks
Context instructions

Takeaways

Dependency inversion at code level: Achieved through Environment/FileOperator/Shell abstractions
Conceptual dependency on OS: The abstractions themselves reflect OS-centric thinking
Three-layer influence: Environment shapes tool implementation, availability, and context engineering

The next time you build an agent and instinctively reach for file system tools, pause and ask: “Is this the right environment for my agent?” The answer might still be yes - but it’s worth asking the question.

PTC是一种端到端的方案

2025-12-02T16:00:00.000Z

最近在做大模型网关，之前也积累了比较丰富的Coding Agent经验，看了一些针对Anthropic’s Programmatic Tool Calling的分析，感觉都有一些不到位，技术上来说，Anthropic实现了一个服务端的CodeAct工具，将代码编写和执行都放在服务端进行，并不在API中完全暴露，由此，API的使用者可以在减少token消耗的情况下实现目标。

如果在客户端实现，则至少需要编写代码-执行代码两个轮次，甚至更多

下面这张图很好的解释了整个工作流程：

以上基本上是大部分自媒体/公众号/营销号对于它的理解，以下我提供一些不一样的看法，可能不一定成熟。

有状态API应该包含环境状态，而不是消息状态

有状态API的起始是OpenAI的Responses API，在我看来其主要目的有二：

允许客户端可以在发起任务之后异步获取结果，以减少服务器压力
更好地在隐藏推理细节的同时，提供连贯推理的服务

但实际上，Responses API只是在性能上稍好，大部分时候OpenAI只享受到其数据安全的部分，因为Responses API实际上无状态模式，而大部分时候，我是使用无状态模式进行交互：实时拉取流，保存thinking signature而非id，完整回填整个消息列表

PTC提供了一种带有环境状态的API，其编写、执行代码将对其服务端的对应环境造成影响，简单来说，过去我们让Agent改文件，所有文件状态的更新发生在我的本地，而Agent需要主动获取我本地的环境信息，这依赖于我，确切的说是我所使用的客户端，Claude Code、Codex CLI、Cline等等具体的工具实现，而PTC模式下，这些工具是在服务端沙盒实现的，没有实现者的bias、没有普适性要求、也没有那么多需要考虑的适配和安全问题。

端到端的数据积累

过去，模型公司收集到的用户使用数据只能通过消息，我们常说Cursor的价值在于积累了很多用户交互的真实数据，实际上指的就是环境数据和消息数据的结合。现在，PTC展示了一种模型厂直接端到端收集Agent数据的方式，通过一个已经跑通的、需要智能的场景，通过收集这方面的数据，或许能够切实地推进从ReAct到CodeAct的效率和智能提升。

Claude Code Agent SDK远远不够，PTC是Anthropic真正想要的东西。

那么，或许对bun的收购也顺理成章？

Free from the coding language

2025-11-28T16:00:00.000Z

一篇碎碎念，好久没更新了。

最近花了很多时间在研究各个模型之间的差别，同一个prompt下面，不同的厂商的模型所表现出的trajectory差别巨大。同时，随着年末大家的混战，我们惊喜的发现OpenAI、Anthropic、Google三足鼎立的局面似乎正在形成。当我们觉得GPT-5 Codex横扫四方时，Sonnet 4.5的出色表现让我感觉Anthropic并未落后，而Gemini 3 Pro非常惊喜地让我们看到一个经济、速度、性能都非常均衡的选择。

最近我在使用Claude Opus 4.5来进行Rust项目的编写（构建一个LLM网关来进行智能路由，等我完成后会有博客来介绍），明显感觉到与Sonnet 4.5相比，Opus更加谦逊且精准，就我而言，目前最佳的使用方式仍然是与AI讨论设计，输出技术架构和详细设计文档，然后在手动控制上下文长度的前提下（大部分时候是控制每次的任务大小），让Agent能够通过编写测试或其他方式验证实现的情况下，来完成代码编写工作。这一次更不一样的是，我选择了我没有那么熟悉，但是编译器和工具链都非常成熟的Rust语言，结果也非常令人满意。这表明，随着模型能力的提升，我们或许可以更加激进地探索和学习新的技术栈，而不必过于担心自己Debug的能力不足，相反，架构设计、可测试性、可维护性等软实力将变得更加重要。

Design Agentic Coding Agent

2025-10-16T16:00:00.000Z

是时候思考如何构建一个可扩展的云原生Coding Agent系统了。

Agentic Workflow

自Claude code横空出世，人们越来越倾向于采用一个简单的定义来描述Agent：大型语言模型在循环中自主使用工具来完成某个目标。

Agent Design Considerations

鉴于大模型的消息是无状态的，我们很容易拆分出LLM消息和工具实现两部分，MCP协议给了我们这样的一个example，通过streamable http或者本地stdio的方式，基于JSONRPC对工具定义进行分离。

接下来，我们很自然地思考，工具本身是否是有状态的？这就回到了Agent所针对的目标中。对于Coding Agent来说，其所处环境应是与人类程序员编程时使用的环境一样的开发环境，由以下组成：

代码和相关文件，或者说repo
运行时及运行依赖（编译和调试容器、其他已部署的服务、数据库、本地需要安装的调试库等等）

Agent本质上是在通过工具与上述两个环境进行交互，我们可以得出这样的描述：Agent通过不变的工具对环境进行改变，从而获得观察（observation），再指导其下一步动作。

这里及引出两个问题：

工具一定是同步执行的吗？
环境如何与Agent消息进行同步？

Async Tool Calling(and other jobs)

大多数API都允许Tool Response与User Message同时包含在一次请求中，只需要满足Tool Call和Tool Response在一次LLM请求和响应之间是成对出现的即可。因此，我们可以通过User Message，或包装Tool Response来提醒Agent哪些任务已经完成可以再次获取，或者将其他的系统异步任务添加到消息中。

另一种方式是让Agent直接管理异步任务，但由于自动压缩等上下文管理策略，我们需要确保Agent不会忘记已经启动的任务，并观测其结果

Sync Message and Environment

现在，我们需要将消息和环境进行绑定，如果我们想在任意时刻进行回滚重试，那么对于每一次工具调用都对应了一个环境快照，当这一依赖影响到数据库等不一定能回滚的资源时，我们就必须针对这类资源进行特别设计。

基于不同的开发模式，我们可以为用户提供不同程度的重试和回滚策略，从最基本的staging环境+prod环境，再到通过脚本自动创建本地环境模拟等等方式，一种思路是通过Infrastructure as code (IaC)+unit test的方式，使用脚本来确保开发环境的可重现，另一种思路则是在基础设施层就支持这一特性。而针对Agent消息，我们可以通过各类durable execution的基础设施来实现，搭配RPC Tool Calling，实现Agent消息的编排，具体可以参考：

User experience

用户体验通常是Agent系统设计忽略的一环，实际上工具调用可能长时间的无法流式输出，特别是编辑特别大的代码文件时，这会造成很大的用户体验问题。良好的用户体验常常可以让用户享受创作和解决问题的过程，而非仅仅交付物本身。我认为我们可以通过拆解工具调用的流式阶段，再通过一个非常轻量化的模型来进行流式输出，以提供流畅、易懂的用户体验。如果我们将异步任务视为一个消息系统，则可以考虑“Agent发起任务” - “Agent等待任务完成” - “任务已完成，等待Agent响应” - “Agent正在处理响应并进行下一步”的循环流程，而不是只能向用户展示“Agent调用工具中” - “Agent调用工具完成”的序列，用户也可以更清楚的了解系统的工作流程。

Thinking about debug agent

2025-10-08T16:00:00.000Z

简单记录一些对于Debug Agent的思考，与Coding Agent不同，Debug Agent需要包含更多的环境感知，需要更多的细节设计

Context

Debug Agent应当由三个重要部分组成：用户上下文、程序上下文和自动化交互方案

用户上下文

当人们深入地使用Agent进行编程的时候，常常陷入debug困难的境地，表现为：

很难描述自己遇到了什么问题，一种方案是进行截图或者录屏，然后交给一个有视觉、甚至可以处理视频（一般而言webp或者gif也可以）的agent来分析解决
很难给出问题栈，比如点击某个按钮之后，http请求出错了，如何把问题提交给Agent进行解决

我希望通过“用户上下文”来描述此类场景，对应用户在使用产品的过程中遇到的bug和各种现象，也包括了运行时产生的各种上下文

程序上下文

程序上下文实际上是Agent来理解软件的工程，软件不仅仅是代码组成，还包括了对代码业务的理解和说明，类似所有Spec-drive开发，对于需求文档、技术选型、代码仓库的长短期记忆与规划和代码本身构成了程序上下文。Agent基于对程序上下文进行决策，理解和解决问题。

自动化交互方案

自动化交互方案是自动化测试在Agent上的实现，通过Agent进行交互来自动化地获取“用户上下文”。通过不同细粒度的自动化交互方案设计，如Browser use/Unit test/End-to-end test都对应了不同的用户上下文收集方式。

工作流程

发展阶段

我们分方面来看，程序上下文其实和Coding Agent基本一致，主要问题是保持软件开发过程中的文档和知识能够持续传承和更新；用户上下文与自动化交互相辅相成，是Debug Agent的重点。

程序上下文

第一阶段，引入最基本的记忆文件，类似AGENTS.md, CLAUDE.md，记录项目的重要信息

第二阶段，结构化记忆，使用或结合memory文件夹/RAG/抽取等方案，自动地存取用户对项目的一些要求、用户的偏好

第三阶段，规范驱动，结合用户体验一起，设计交互模式来推进产品需求、设计、功能开发和测试的全套程序上下文记忆存储

用户上下文与自动化交互

第一阶段，我们可以设计一系列工具（交互），让用户尽可能简单的反馈正确的用户上下文，同时集成一些简单的自动化交互来进行测试，比如截图、单元测试支持。目前看到良好的用户交互有：

截图标注
gif/webp录屏

第二阶段，我们将设计一系列采集工具，对用户交互的运行时上下文进行自动化收集和分析，与分布式系统追踪类似，例如：

network & console日志自动捕获
后端日志自动化收集
其他指标监控

第三阶段，我们需要自动化交互，并为自动化交互构建收集系统，这是自动化测试和监控的进阶，需要为LLM特别优化的输出才能得到足够好的效果

Evals is misleading?

2025-09-09T16:00:00.000Z

最近看了一些LLM评估的文章，很明显有两个倾向

使用LLM进行评估（LLM-as-Judge）是一种AI-Native的方式，或许在Human alignement（对齐）上可以做到比较好，但仍然受限于简单任务，对于复杂任务人们很难模拟并自动化评估
由于复杂性，大多数产品不使用自动评估方法，而是通过研究员/工程师的自主洞见，或者设计信号（Signal），进行A/B实验来判断模型是否变好。Claude code“降智”事件可以看做是一次大型的量化模型A/B实验（有人有证据证明某些时间sonnet和opus是使用量化模型进行serve的，anthropic声称是Bug）

从我的理解上看，没有办法通过一个同等智能的模型评估另一个模型的思考过程，就如同使用AI检测AI一样，如果能被检测，那就一定能骗过检测，而当我们有更高级的智能来评估时，谁又来评估这个“更高级”的智能给我们带来了多少提升？最终我们只能达到两个结果：

做了很多的事，得到了当前结果的算法验证，证明了目前的方法有用，可能产出一些对于当前方法为什么有用的洞见，仅此而已，并不对接下来的技术路线有指导意义
仍然通过人类来探索新方向，评估永远滞后

既然评估只能解决一部分问题，我们应该做什么？或许我们不应该在现在开始研究评估，或许我们评估的目标并非中间产物

这一观察可能与我们目前正在AI Coding的前沿有关，我们很明显的碰到了LLM的能力边界，因此开始研究各种Context Engineering的方式，以及思考Context和LLM如何协作。因此我更倾向于将模块拿出来进行评估，衡量每个模块在任务过程中的成本和性能，而非优化出某种想要的结果。简单说，我们应该衡量我们驱动LLM的方式，通过A/B实验捕捉信号、还是通过定性定量分析，都是可以尝试的。

世界上大部分人没有用过AI Coding，以后的AI Coding也不会是现在这个样子

警惕局部最优

参考阅读

X上的一些讨论：https://x.com/justinstorre/status/1964029634796015685
A/B测试平台表示没有auto judge，全是监控：https://www.raindrop.ai/blog/thoughts-on-evals
系统性的评估是有益的：https://www.sh-reya.com/blog/in-defense-ai-evals/

LLM只是计算，Context才是内存

2025-09-01T16:00:00.000Z

LLM并非一台计算机，LLM目前只是一个处理器，人们通常将记忆、RAG等外置存储手段作为内存看待，但实际上，只有Context才能被看做内存，而这些外挂的存储手段，可以看作是一种“虚拟内存”，LLM通过工具调用或者工程师通过工程化的手段进行“换页”，人们将此称为Context Engineering。

我之前介绍过工程上的Context Engineering策略，而LLM进行工具调用的方式，目前看分为两种模式：

检索模式：通过向量检索、搜索引擎等方式进行搜索，理解返回结果
阅读模式：通过直接阅读文档进行理解

显而易见，检索模式效率更高，但容易受限于RAG等技术，精确度低，工程难度大，这种方式流行的原因其实是因为简单，而非性能。

目前看，阅读模式的性能更优，但实现上需要有更多考虑：一方面，上下文长度的控制和对应工具实现很重要，通常会提供类似grep、glob等工具来进行代码搜索；另一方面，通过sub-agent的方式进行上下文隔离，可以减少context的消耗。

未来如何

我们看到从输入的Prompt Engineering到Context Engineering，我们已经将对LLM应用从简单的汇编语言操作寄存器（仅有输入的prompt）进化到C语言类似的，可进行内存管理的高级语言模式，更进一步地看，下一步或许是发明更高效的编译器技术，让用户的自然语言能够更好地被高级语言所理解和编译，也就是说，Agent（LLM+工程）能够根据用户的输入来更加自主、智能地控制上下文。这是我认为的，除去预训练和记忆模式以外的另一种Learning实现。

时间是人类的幻觉

2025-08-31T16:00:00.000Z

LLM是没有时间概念的

我想起人们让Deepseek深度思考三秒后给出答案，Deepseek真的考虑一下什么是三秒，以及如何思考三秒。或许这就是肉身人类与硅基生命的区别。

时间是人类最重要的幻觉

认识到时间对于自己的重要性，是认识到自身意义的开始。

如果一个人一直按部就班地活着，时间对他来说是最不值钱的，相比之下，不被破坏的规律是他最重要的东西。

但某一天，突然发现，一个人的人生之所以不同，就是因为每个人所体验到的世界是独一无二的，而体验世界的唯一必须，就是时间。我们可以简单的说，时间之于物是没有意义的，物随时间变化形态，往往是相同或者相似的，如聚沙成塔、滴水石穿。但时间之于思想缺失最重要的元素，因为思想，所以感受到了时间，因为时间，思想得以发展。

对于物质的人而言，时间是人类最重要的幻觉

重拾发呆

2025-08-20T16:00:00.000Z

最近我又开始可以发呆了。

高考结束之后，人生仿佛按下了快进键，在大学卷，在实习卷，在工作卷，只有付出努力才能获得回报。

不论是在地铁、出游、还是在家里，我都在思考，思考着课程、作业、工作内容、架构设计、赚了多少钱，对比着自己和别人的生活，叹息着自己的生活不如意，于是又催促自己再加把劲。

或许我就是这样失去了发呆的能力。

我曾经认为，发呆是灵感的来源，是快速休息的方式，我总会在课堂上、公交车上、地铁上发呆，什么也不想，后来听说这叫正念，所以，我似乎很早很早就掌握了正念，又在忙碌中失去了它。

或许有人会说发呆和正念完全不同，但对我来说，发呆就是正念。

自从去年burnout之后，我开始慢慢地恢复到以前的状态，开始主动地放慢节奏，主动地观察内心，直到最近，我发现我的内心平静到一定程度时，我又找回了发呆的感觉。这是一种在放任思维流动的感觉，在这个状态下，我可以想象或者不想象、思考或者不思考，而回报是一时间的灵光闪现。

所以，多发发呆吧，如果发现自己无法发呆，或许是时候放慢脚步。

想想那个一十二岁的自己。

杠杆效应-人、LLM与杠杆

2025-08-02T16:00:00.000Z

这是一篇随笔，在思考人类应该如何利用LLM的时候，我意识到杠杆效应是一个很好的思考角度。

工具杠杆

从工具杠杆的角度上看，LLM是一个很平均的工具，在不对其进行微调的时候，人们总能通过chatbot提升自己的效率，但由于单纯聊天产生的价值不高，人们需要通过高价值的劳动行为来提升杠杆率。

目前得到验证的工具杠杆是Coding，在上一个时代（互联网时代）已经验证过，代码可以不间断的运行并带来价值，其边际成本极低，作为信息技术可以带来极大的杠杆率。如果我们可以使用LLM加速代码的生成，则可以利用互联网时代的基建和系统，提升整个互联网的发展速度

在其他领域上，比如PPT、AI员工等工作，我发现其缺少反馈环境机制，通常依靠人在回路进行反馈，也受限于人类认识和审美，这方面的最主要问题是人类缺少高质量的员工，而平均值的人类+平均值的AI并不能产生多少价值，也不能消灭多少岗位（因为AI的价格也很贵）。这很类似于以基本工资雇佣老头老太太来进行环卫、保安、售票员等工作，自动化本身的价格可能比他们还高或者持平，但是考虑到就业，社会不得不从经济效益和人的角度创造一些毫无意义的工作，这在任何行业都成立，比如互联网企业也存在一大堆的“职能岗位”，即便他们最擅长的就是用代码来提高效率。

知识杠杆

另一个想法是，LLM作为知识杠杆能够加速人类摄取知识的速度，从书籍与印刷业得到的启示是，当信息获取的成本降低后，社会效率会进一步提高。另一方面，科学上低垂的果实已经被消耗殆尽，越来越多的科研创新依赖着大组织协作，人们需要越来越多的时间来学习基础知识才能参与到科学创新中，如果我们可以加速人类摄取知识的速度，或许科学创新的速度也能被增加。

但科学创新的反馈链路太长，人类的经济制度是否能帮助这一过程，或者这是对未来的美好想象

二者结合

从我的角度上看，人类可能正处于从学堂学习到实践学习的转化过程中，只是没有人意识到这一件事。LLM最神奇的地方在于其工具属性和知识属性共存，以AI Coding举例，人们在使用LLM进行代码编写的过程中，也在和AI进行结对编程，学习相关的编程知识，那么为什么人类不能和LLM工具一起成长呢？

一个可能的问题是，知识杠杆由于当前的教育体制设计，其反馈回路太长，导致产品只能设计为“做卷子”（chatgpt study mode）的模式，而非渐进式学习的模式。人们总假设有一个固定的答案，而不是探索一个真实世界的解决方案，人们面向的销售目标也是在授课体制内的学生、老师和家长，而不是面临真实世界问题的每个普通人。

另一方面，LLM在工具中做的也不好，人们无法相信一个“自己都做不好”的老师，这一方面是LLM的幻觉与事实核查。另一方面是人类自己对于表达、理解和最重要的动力的缺失，很多时候人们已经被资本主义规训成“有自我”的人，虽然这个自我意识是千篇一律的，受到灌输的自我。我们称一个只知道享乐，不希望思考，使用产品的目的是“解决问题”的人为现代人，而称一个时刻都在思考解决问题的人为原始人，当我们用这一方式思考AI，人类居然妄想通过程序员、产品经理、测试人员的工作岗位划分Agent来模拟资本主义下低效的世界，将被规训的低智商人类映射到对真实人类智能仿真的神经网络上，果不其然极大地降低了LLM的智能。从这一角度上看，现在的人类头脑本身是非常适合和LLM共同成长的，而现存人类的肉体头脑因为其生存的时间长度，受到资本主义规训的影响，导致他们变成了“人力资源”而不是通用智能，则大大阻止了人类与LLM共同成长。

于是我发现，在下一代AI-Native人类成长起来（或许永远也成长不起来）之前，人们只能接受无脑产品或者研究机器，这一未来是光明的，但其曲折的过程，则是对于我们这一代人的局限和悲剧。

AI Native的产品更应该暴露错误

2025-07-25T16:00:00.000Z

我曾在之前的文章中讨论过AI产品需要更端到端的设计来帮助用户发挥Agent智能，在目前来看，暴露错误是一个很好的让用户学习、同时进一步发挥模型智能的方式。

在传统的产品设计中，人们总是倾向于所谓的简洁，将一切复杂的原理藏在产品后面，让用户能够下意识的完成操作，人们总是假设用户无法理解产品背后的运行逻辑，不具备或不愿意花时间理解产品的技术细节。但在AI时代，每个人都需要通过表达来创造自己想要的东西，这时简洁反而成为了不安全感和困惑的来源。如果人们一定要面对复杂性，那么产品就一定要正确的暴露足够的细节，以便让人们能够更好地理解和掌握自己生成的东西的工作原理。

AI时代一个重要的改变是人们不再被专业知识而困扰，一个没有接触过web开发的非技术人士也可以通过大模型进行编码并部署在vercel之类的平台上，如果越来越多的人被纳入AI教育中，越来越多人开始使用AI，那么假设用户都是“不愿意学习的懒人”无疑是愚蠢的行为。基于这一假设，如果我们相信未来的世界是技术民主的，未来的人类是更会表达、更不机械、更有创造力的，我们就应该暴露更多的产品细节，创造更有可能性而不是更具可预测性的产品。

暴露错误是另一个让用户和产品一起成长的重要方式（还有一个是TODO Tool），通过精巧的设计，用户不再是对错误无能为力的人群，而是能够借助AI能力对错误进行修复并在其中成长的人，如果每个人都会有类似的成长过程，那么最适应这一成长过程的产品将会获胜，这或许是比“好用”更加重要的AI时代产品设计原则——成长性。

最后，通过成长性原则，我们可以帮助产品和用户建立起反脆弱的特点：从错误中学习并成长，从而出更少的错、创建更好的产品。由于AI的不确定性，随着AI的能力提升，产品对于AI的约束减少，产品的不稳定性也有可能上升(通常是AI和非AI的黏合初，很容易松动)，不同技能水平的用户使用其能力的方差应该也会增大，若可以实现一个机制帮助用户成长，那么我们就赋予了用户减少产品不稳定性的能力，从而实现用户和产品的结合，这或许是AI时代的用户粘性：不是chat、memory，而是experience point。

Architecture of Agent System

2025-07-19T16:00:00.000Z

记录一些最近调研的 Agent 系统的架构。

Long-term Memory System

参考Mem0和AWS Bedrock AgentCore Memory，长期记忆一般是 LLM 蒸馏用户消息，形成浓缩消息和对应 embedding，从而支持语义化检索。

核心组件：

LLM：浓缩消息
Embedding：对浓缩消息进行Embedding并支持语义化检索
Vector Database：Embedding的索引，支持快速检索

Browser-use Tool & System Design

参考browser-use进行工具设计，并针对工作负载进行优化。

核心设计：

Browser Tool设计
- 基础的操作有打开、滑动、点击等
- 更复杂的是2FA、验证码等自动化操作，可能需要更细节的工具封装和工程化解析工作
- 有时可以总结某些网页为流程，通过AI进行启发式测试，再通过非AI的方式重放以提高效率
无头浏览器的负载分离和安全隔离
- 页面内容不受信任，可能存在恶意代码
- 页面可能存在bug，导致资源耗尽
- 控制爆炸半径，当浏览器崩溃时，只影响当前用户的浏览器实例
与反爬虫手段对抗：capture resolver、ip proxy等

Code Execution Sandbox

与LLM的交互只需要全量的消息历史作为上下文，LLM会返回两类响应：Tool Call Request（工具调用）和Text Message（文本消息），而相对应的，Client需要对Tool Call Request进行处理，并将结果返回给LLM，暂且称之为Tool Result Response。Client处理则是依赖于“假设的环境”中，例如我们假设Agent运行在某台Linux机器上，并为LLM提供了编写代码和执行代码的工具，则Client在处理工具调用时，需要维护这个假设的环境的一致性：即编写了代码执行的时候，需要正确地执行代码并返回结果。此外，Client还需要关注工具的副作用，执行代码是一个非常好的例子，当两个用户在同一台机器上执行代码，则可能会互相影响，因此对于有副作用的工具调用，我们需要设计合理的隔离和沙箱机制。

而其他工具，比如搜索、浏览器等工具，则大部分不需要维护环境的一致性，则可以认为他们是无状态的。

为了更高的资源利用率和用户体验，我们需要同时解决隔离环境的启动速度和资源利用率的问题，目前有两种架构选择：

gVisor：定制化内核路线，更好性能但更多网络/系统调用限制，可能需要定制化开发
Firecracker：vm(kata container)技术路线，开箱即用，更好的兼容性，但启动速度较慢一些（对比gVisor）

这里不展开细节，不使用runC(docker)的原因是其容易受到内核漏洞的影响，且启动速度较慢（1-10s）级别，在初期可以考虑使用runC进行PMF，但在后期需要考虑替换。

Ergonomics to Agent

2025-07-04T16:00:00.000Z

Agent Design - 人体工学

我们提供了一个TODO工具给Agent，让它可以列出TODO项，并在任务过程中对TODO项进行修改，这一过程会完全展示给用户。

当我要求制作一个个人博客时，Agent列出了以下TODO：
1
2
3
4
- [] 创建个人博客的HTML结构
- [] 设计博客样式和布局
- [] 添加导航和页面内容
- [] 添加响应式设计

起初，我对这一功能并不感冒，因为我知道Agent的工作流程，并通常不依赖他进行架构设计和技术方案选择，因此我只需要关注他对Thinking工具的使用就可以了解他的思路。同时，根据我对Agent的了解，我认为TODO工具某种程度上增加Agent在通用任务中的惰性，不利于其自由发挥，不一定适合我们的产品。

但在推出这一功能之后，我发现我错了。

不仅仅是我们的产品经理和最活跃的用户，大部分技术人员也认为这增强了他们对Agent的掌控和理解，这让我意识到，或许我们在追求Agent性能的道路上，忽略了很多人体工学的内容，我们常常想着如何设计一个产品来交付结果，但忽略了人类与工具交互过程中，人类对于工具的控制、学习和理解。

让用户在使用中成长

TODO工具最好的地方在于，让用户在使用的过程中成长。通过TODO工具，非技术人员可以了解到Agent对问题的拆解，从而学习到软件开发、架构设计等领域的知识。也许AI会有幻觉做出错误的编码或设计，但用户可以通过进一步地交互，和AI一起解决问题。这为非技术用户构建了一种在使用中学习的可能性，这是以前的工具类产品所不具有的特性。

上个月我曾讨论了AGI的产品设计，从端到端的来看，“让用户在使用中成长”可能是最重要的设计理念，这比过去美观的界面、易用的UI又或者是更高的付费转化率更为重要。这代表了AI智能的被驱动程度，而在这过程中人类输入-AI输出的方差，或许能够成为“场景为王”的强化学习下半场中重要的数据资产。

Ergonomics in Agent Design

English version translated by Claude and Wh1isper(Human in the loop).

We provided a TODO tool for the Agent, allowing it to list TODO items and modify them during the task process, with the entire process fully visible to users.

When I requested to create a personal blog, the Agent listed the following TODO:
1
2
3
4
- [] Create HTML structure for personal blog
- [] Design blog styles and layout
- [] Add navigation and page content
- [] Add responsive design

Initially, I wasn’t enthusiastic about this feature because I understand the Agent’s workflow and typically don’t rely on it for architectural design and technical solution selection. Therefore, I only needed to focus on its use of the Thinking tool to understand its thought process. At the same time, based on my understanding of the Agent, I believed the TODO tool would somewhat increase the Agent’s laziness in general tasks, hindering its creative freedom and not necessarily suiting our product.

But after launching this feature, I discovered I was wrong.

Not only our product managers and most active users, but also most technical personnel believed this enhanced their control and understanding of the Agent. This made me realize that perhaps in our pursuit of Agent performance, we’ve overlooked many ergonomic aspects. We often think about how to design a product to deliver results, but ignore human control, learning, and understanding during the human-tool interaction process.

Enabling Users to Grow Through Usage

The best aspect of the TODO tool is that it enables users to grow through usage. Through the TODO tool, non-technical personnel can understand the Agent’s problem decomposition, thereby learning knowledge in areas such as software development and architectural design. AI might have hallucinations leading to incorrect coding or design, but users can work with AI to solve problems through further interaction. This creates a possibility for non-technical users to learn through usage, which is a characteristic that previous tool-based products didn’t possess.

Last month I discussed AGI product design. From an end-to-end perspective, “enabling users to grow through usage” might be the most important design philosophy, more important than past beautiful interfaces, user-friendly UI, or higher paid conversion rates. This represents the degree to which AI intelligence is driven, and the variance in human input-AI output during this process might become an important data asset in the second half of “scenario-driven” reinforcement learning.

AGI is possible and impossible

2025-06-20T16:00:00.000Z

我与claude共同创作，大部分是我在写随笔，claude再帮我整理成文

AGI作为一种革命性的生产力，正在与现有的制度框架、治理结构和权力配置发生深刻的冲突。已经有无数人告诉我们AGI可能在不远的将来就将达到，而人们也意识到模型的训练优化来到下半场，我们已经有了足够智力的模型来进行生产活动等等……所以AGI is possible，这点毋庸置疑，But…

但当我们将视角转向制度层面时，AGI的发展却面临着巨大的阻力。这种阻力主要来自于现有上层建筑对新兴生产力的不适应性。如果AGI的到来必然导致政府制度的重构，那么现有的制度安排必然会对AGI的发展形成阻碍。

治理结构的滞后性

现有的政府治理结构是为工业时代和早期信息时代设计的，面对AGI这种颠覆性技术时显得力不从心。政府部门的科层制结构、决策流程的冗长性、以及对新技术理解的不足，都导致了政策制定的滞后。

与互联网发展初期的ARPANET项目不同，当时的技术发展相对线性可控，政府能够通过明确的目标和路径进行引导。而AGI的发展具有高度的不确定性和复杂性，传统的项目管理模式难以适应。政府往往只能在技术已经成熟后进行被动的监管，而非主动的引导和孵化。

资源配置的扭曲

由于缺乏有效的政府引导机制，AI从业者只能通过”政绩工程”的方式获取资金支持。这种资源配置方式存在严重的扭曲：

短期导向：政绩工程通常追求短期可见的成果，而AGI的研发需要长期持续的投入
形式主义：资金往往流向容易展示的应用项目，而非基础研究
重复建设：各地政府为了政绩竞相上马AI项目，导致资源的严重浪费

法律法规的不适应性

现有的法律法规体系是基于传统生产方式建立的，面对AGI带来的新问题时显得捉襟见肘：

数据权属问题：大规模训练数据的获取和使用涉及复杂的知识产权和隐私权问题
责任归属问题：AI系统的决策结果出现问题时，责任如何界定
就业冲击问题：AGI可能导致大规模失业，现有的社会保障体系难以应对

权力关系的深层矛盾

AGI发展受阻的根本原因在于它对现有权力结构构成了威胁。政府作为权力的执掌者，对可能削弱其控制力的技术天然保持警惕。

信息控制的失效

传统上，政府通过控制信息流动来维护权威。但AGI具备强大的信息处理和生成能力，可能绕过传统的信息控制机制。这使得政府对AGI技术既依赖又恐惧——既希望利用其能力提升治理效率，又担心失去对信息的垄断控制。

决策权威的挑战

AGI在某些领域的决策能力可能超越人类专家，这对传统的决策权威构成挑战。如果AI系统能够做出更优的政策建议，那么传统的官僚决策体系的合法性将受到质疑。

监管悖论

政府面临着一个根本性的监管悖论：过度监管会扼杀创新，监管不足又可能失控。在这种两难境地下，政府往往选择相对保守的策略，这客观上限制了AGI的发展。

从另一个更加深刻的角度来看，AGI的发展可能加剧一种新型的社会分化——不是传统意义上的阶级分化，而是基于对技术态度和使用方式的分化。我曾讨论过AI的两个重要方向：生成式娱乐和生产力替代，目前看来，二者是这一分化的核心。

奶头乐效应的放大

布兹曼和乔姆斯基早就警告过信息娱乐化的危险，而AGI可能将这种”奶头乐”效应推向极致。当AI能够提供无限定制化的娱乐内容、虚拟陪伴和即时满足时，大部分人可能会陷入一种舒适的被动消费状态中。

这种现象已经在短视频、游戏、社交媒体中初见端倪。AI的介入会让这种”算法投喂”变得更加精准和令人上瘾。个性化推荐系统会越来越了解用户的喜好，提供恰到好处的刺激，让人们在信息茧房中获得持续的多巴胺释放。

人群的进一步分化

在这种背景下，社会可能分化为两个截然不同的群体：

创造者阶层：这是少数拥抱AI工具、与之协作的人群。他们不是被AI替代，而是将AI作为放大器，发挥人类独有的创造力、批判思维、价值判断和情感表达。他们掌握了人机协作的艺术，成为真正的生产力创造者。

消费者阶层：这是大多数通过AI享受便利和娱乐的人群。他们习惯于被算法服务，逐渐丧失主动思考和创造的能力。虽然生活变得更加舒适，但本质上成为了高级的消费终端。

生产力提升的虚假性

这种分化带来一个深刻的悖论：虽然技术在快速进步，但整体的生产力提升可能并不显著。原因在于：

创造力的集中化：真正的创新和生产力提升集中在少数创造者手中，而他们的边际效应递减
消费的无效性：大部分人的AI使用主要用于娱乐和消费，而非生产性活动
人力资源的浪费：大量人力被困在低价值的信息消费中，无法转化为有效的生产力

信息囚笼的新形态

马歇尔·麦克卢汉曾说”媒介即信息”，在AGI时代，这句话可能变成”算法即现实”。当AI能够无缝地生成符合个人偏好的内容时，人们可能永远被困在一个由算法构建的信息囚笼中，失去与真实世界的有效连接。

这种囚笼比传统的物理监禁更加隐蔽和有效，因为它提供的是舒适和快乐，而非痛苦和限制。正如赫胥黎在《美丽新世界》中描绘的那样，最可怕的控制不是通过恐惧，而是通过快乐。

又或者，我们真的需要那么多生产力进步吗？在一个已经能够生产足够食物养活全球人口、足够住房容纳所有人、足够商品满足基本需求的世界里，我们面临的核心问题究竟是生产力不足，还是分配不公？

从这个角度重新审视AI的发展，我们会发现一个令人不安的事实：AI可能正在加剧而非解决根本性的不平等问题。

生产力过剩的现实

物质丰富与贫困并存的悖论

当代社会已经达到了历史上前所未有的物质丰富程度。全球粮食产量足以养活100亿人口，而地球人口还未达到80亿。发达国家的住房空置率居高不下，同时却有大量无家可归者。奢侈品市场蓬勃发展，基本生活用品却因为”没有利润”而供应不足给最需要的人群。

这种悖论表明，我们面临的不是生产能力的问题，而是分配机制的问题。继续追求生产力的无限增长，实际上可能是在回避真正的核心矛盾。

技术发展的方向性偏差

当前的AI发展主要服务于两个目标：提高效率和创造利润。但效率的提高往往意味着人力的替代，利润的创造往往意味着资源向资本方的进一步集中。这种发展方向本质上是为了让有钱人更有钱，让有权人更有权，而不是为了解决分配不公的问题。

我们看到AI在金融交易、广告投放、消费者行为分析等领域的快速应用，这些都是为了更好地”榨取”价值，而不是创造真正有益于全人类的价值。

AI发展对平权的双重影响

加剧不平等的机制

从平权的角度看，当前的AI发展呈现出明显的不平等放大效应：

1. 技术门槛的提高
AI技术的复杂性创造了新的知识壁垒。能够理解、使用和控制AI的人群获得了巨大的竞争优势，而无法跟上技术步伐的人群则被进一步边缘化。这种数字鸿沟比传统的教育差距更加难以跨越。

2. 资本集中的加速
AI的发展需要大量的计算资源、数据资源和人才资源，这些都向少数大型科技公司集中。这些公司因此获得了前所未有的市场垄断地位和社会影响力，进一步加剧了财富和权力的集中。

3. 就业机会的两极化
AI导致的就业替代主要影响中等技能的工作岗位，造成就业市场的”哑铃型”分布：高技能的AI开发者和低技能的服务业工作者，中间层被大量挤压。这种两极化加剧了社会的阶层固化。

4. 决策权力的集中
当AI系统越来越多地参与社会决策时，控制这些系统的少数人实际上获得了对大众生活的巨大影响力。算法的”黑箱”特性使得这种权力更加隐蔽和难以制衡。

潜在的平权机会

然而，AI发展也蕴含着一些平权的可能性：

1. 知识获取的民主化
AI可以让高质量的教育资源变得更加普及和个性化，理论上可以缩小知识差距。

2. 创作门槛的降低
AI工具可以让更多人参与到创作、设计、编程等原本需要专业技能的活动中，可能会催生新的创造者经济。

3. 服务供给的均等化
AI可以在一定程度上缓解优质服务（如医疗、法律咨询）供给不足的问题，让更多人享受到基本的服务。

关键问题：技术为谁服务？

市场逻辑的局限性

当前AI发展主要由市场逻辑驱动，这意味着技术发展的方向主要服务于有支付能力的用户群体。富人的个性化需求得到精心满足，而穷人的基本需求却可能因为”没有商业价值”而被忽视。

这种市场导向的发展模式本质上是一种”技术势利主义”——技术进步主要服务于已经拥有优势的群体，而不是最需要帮助的群体。

重新定义技术进步

我们需要重新思考什么是真正的技术进步。如果技术发展不能让更多人过上更好的生活，不能缩小而是扩大社会差距，那么这种”进步”的意义何在？

真正的技术进步应该是：

让基本需求得到更好满足的技术
让权力分布更加均衡的技术
让人类潜能得到更充分发挥的技术
让社会关系更加和谐的技术

但就如最开始我们讨论的一样，AGI的技术平权挑战了资本主义的制度根本，那么政府在其中将会扮演什么样的角色？在现行体制下，是否真的impossible？

抖音/TikTok可能是当代最具争议性的技术产品之一。它既被赞誉为”内容创作的民主化革命”，也被批评为”注意力经济的终极陷阱”。在平权与不平等的天平上，抖音究竟扮演了什么角色？

这个问题的复杂性在于，抖音同时展现了技术进步的两种截然不同的可能性：它既是普通人表达自我、获得机会的平台，也是算法控制、注意力剥削的工具。理解这种悖论，对于我们思考整个数字时代的平权问题具有重要意义。

民主化的一面：机会平等的技术实现

创作门槛的革命性降低

在抖音之前，内容创作是一个高门槛的活动。制作视频需要专业设备、剪辑技能、发行渠道，这些都将大多数普通人排除在外。电视台、影视公司、传统媒体控制着内容生产的全过程。

抖音的革命性在于它将视频制作简化到了极致：

技术门槛：一部智能手机就能完成拍摄、剪辑、发布的全流程
学习成本：直观的界面设计让任何人都能快速上手
分发渠道：智能推荐算法让优质内容有机会被更多人看到，不再依赖传统的关系网络

草根文化的崛起

抖音确实催生了大量草根创作者的成功案例：

农村网红：像”华农兄弟”这样的农村创作者通过展示乡村生活获得了数百万粉丝
手艺人获得新生：传统手工艺者通过短视频找到了新的传承和变现途径
知识普及：专业人士通过短视频形式传播知识，如”快手菜”、科普内容等

这些现象表明，抖音确实为原本被边缘化的群体提供了发声和发展的机会。

知识传播的去中心化

抖音上的知识传播呈现出明显的去中心化特征：

专业知识的平民化：复杂的专业知识被包装成易懂的短视频
实用技能的普及：烹饪、维修、种植等生活技能得到广泛传播
文化交流的增进：不同地区、不同文化背景的人们能够更直接地交流

从这个角度看，抖音确实起到了知识民主化的作用，让知识的获取不再受地域、阶层、教育背景的限制。

剥削的一面：算法资本主义的新形态

注意力的商品化

然而，抖音模式的核心逻辑是将用户的注意力转化为商业价值。这种模式存在根本性的不平等：

价值创造与收益分配的不对称：用户创造内容和提供注意力，但大部分商业价值被平台攫取
数据主权的缺失：用户的行为数据被平台收集和利用，但用户无法从中获得相应回报
创作者的依附性：看似”自由”的创作者实际上高度依赖平台的推荐机制

算法控制的隐蔽性

抖音的推荐算法看似公平，实际上隐含着深层的控制机制：

1. 内容同质化的压力
算法会奖励符合用户喜好的内容，这导致创作者不得不迎合算法的偏好，创作趋向同质化。真正的创新和批判性内容往往难以获得流量。

2. 成瘾机制的设计
无限滑动、精准推荐、间歇性奖励等设计都是为了最大化用户在平台上的停留时间，这种”时间收割”本质上是一种剥削。

3. 价值观的隐性塑造
算法会放大能够引起强烈情绪反应的内容，这往往意味着煽动性、娱乐性的内容获得更多曝光，而理性、深度的内容被淹没。

新形式的数字鸿沟

抖音虽然降低了创作门槛，但也创造了新的不平等：

1. 算法素养的差距
理解并适应算法规则的创作者获得更多机会，而不懂算法逻辑的用户处于劣势。

2. 资源投入的分化
虽然基础创作门槛降低了，但要在激烈竞争中脱颖而出，仍需要专业团队、设备投入、营销策略等，这又将很多人排除在外。

3. 平台依赖的风险
创作者的成功高度依赖单一平台，一旦平台政策变化或账号被封，之前的积累可能瞬间归零。

深层分析：技术民主化的幻象

参与不等于赋权

抖音确实让更多人参与到了内容创作中，但参与本身并不等于真正的赋权。大多数用户仍然是算法和资本逻辑的被动接受者：

创作自由的有限性：创作者必须在平台规则框架内活动，真正的表达自由是有限的
经济收益的马太效应：少数头部创作者获得大部分收益，绝大多数创作者收入微薄
话语权的集中：虽然人人都能发声，但真正能影响社会议题的声音仍然集中在少数人手中

消费主义的强化

抖音虽然提供了创作机会，但其核心逻辑仍然是刺激消费：

种草经济：大量内容以推广商品为目的
冲动消费：短视频格式特别适合激发用户的冲动购买欲望
虚假需求的制造：算法会不断推送可能让用户产生购买欲望的内容

这种逻辑实际上是在培养消费者，而不是创造者。

地域和文化维度的复杂性

城乡差距的微妙变化

抖音对城乡差距的影响呈现出复杂的图景：

缩小差距的方面：

农村内容获得城市用户关注，一定程度上促进了城乡文化交流
农产品直播带货为农民提供了新的销售渠道
乡村旅游通过短视频获得推广机会

扩大差距的方面：

城市创作者在技术、资源、营销能力方面仍有明显优势
乡村网红往往被要求表演”乡土性”，可能强化了城市对农村的刻板印象
注意力经济的逻辑可能会让农村地区更加依赖外部关注，而非内生发展

文化多样性的双重效应

积极效应：

方言、地方文化通过短视频得到保护和传播
少数民族文化获得更多展示机会
传统手工艺、民俗文化找到新的传承方式

消极效应：

文化展示可能趋于表面化、商业化
为了迎合主流审美，地方文化可能被”标准化”
文化的商品化可能损害其本真性

全球视角：TikTok的地缘政治意义

信息主权的争夺

TikTok在全球的发展也反映了平权问题的国际维度：

打破西方社交媒体垄断：为非西方国家提供了不同的社交媒体选择
文化输出的新渠道：中国文化通过TikTok在全球范围内传播
数据主权的争议：各国对TikTok的数据安全担忧反映了数字主权的重要性

发展中国家的机遇与挑战

对于发展中国家来说，TikTok既是机遇也是挑战：

绕过传统媒体门槛：直接向全球观众展示本国文化和产品
数字鸿沟的风险：可能加剧与发达国家在数字技术方面的差距
文化殖民的新形式：算法推荐可能强化某些文化的主导地位

结论：技术工具的中性神话

抖音/TikTok的案例清楚地表明，技术工具从来不是中性的。它的平权效应和不平等效应是同时存在的，关键在于我们如何设计、使用和监管这些技术。

平权的真实性

抖音确实在某些方面促进了平权：

创作门槛的降低是真实的
知识传播的民主化是真实的
草根文化的崛起是真实的

剥削的隐蔽性

但其剥削机制也是真实存在的：

算法控制是真实的
注意力剥削是真实的
新形式的数字鸿沟是真实的

我不知道这对人类是好还是坏，是更文明还是更野蛮，或许我们每一个人也不得不在这一滚滚向前的浪潮中找到自己的位置。

Context Engineering-The Most Important Thing in Agent Development

2025-06-16T16:00:00.000Z

Context Engineering-The Most Important Thing in Agent Development

English version is below. Translated by Claude and Wh1isper(Human in the loop).

What is Context Engineering

前两个月我写了一篇博客(Agent Design Note)记录我在设计Coding Agent中的一些重点，现在我想完整的阐述一下对其中Context Engineering的理解。我认为这或许是目前构建任何Agent最重要的内容。

Key Points of Context Engineering

LLM当前最重要的就是上下文窗口，虽然LLM在大海捞针的测试中表现得越来越好，但一旦有任何逻辑相关出现时，LLM通常很难理解这其中的逻辑。Context Engineering就是为了能够更好地管理上下文，让LLM更好地理解问题或完成任务。

这是我目前的思考重点：

用Agent的角度思考并提供上下文
- 通过Tool 的 description、参数、实现和返回值（Observation）
- 在system prompt中通过few shots替代workflow
- 其他上下文集成方案（RAG、HyDE、Post prompt等）
保护Agent上下文
- 通过分包子任务的方式（下面会讨论）
- 通过Compact Context的方式优化上下文
保持简单，基建先行
- 保持简单、原子化的通用工具设计，否则使用few shots+固定工具的工作流
- 先完成compact等基建，再考虑多agent等复杂系统

Compact Context

首先我们讨论如何在长任务中管理Agent的上下文。目前，SOTA的模型有200K的上下文长度，Gemini 2.5 Pro甚至有1M的上下文长度，但对于代码工程而言，多轮对话往往很快就能吃光200K的上下文，这时我们就需要上下文压缩。

一种基于策略的上下文压缩方式是，设定一个固定的水位线，比如50%的token消耗，触发一次上下文压缩，在保留N条消息的情况下，对前N条上下文进行总结后，用总结的结果替换这N条消息。这个N可以选择为0（不保留消息），2（最近2条），1/2（一半上下文）或者1/4（25%上下文）。这种情况下主要调整三个方向：

上下文压缩模型的prompt和输出结构
N值：这代表了统计学上有多少最近上下文是重要的
水位线：这代表压缩效率

另一种策略是设计一个记忆系统，每次从记忆系统中获取上下文，而不是保留所有上下文。这一记忆系统可以是LLM based，也可以是基于RAG或其他搜索技术的。

二者对比，前者的缓存效率更高，调试重点更明确，更容易做出足够好的实现，后者则更加智能，但目前没有比较通用的实践。我在Cline、Claude code等看到的方式都是前者，而Windsurf据称是二者混合。

Role Based Multi Agent Systems

针对上下文问题还有一个想法是通过多个Agent协作完成工作，为此，人们设计了工作流或者中心化Agent。其中一种方式是人工或自动地设计各种角色，然后让LLM以一种角色扮演的方式，沉浸于其角色之中，完成指定的任务。

我对这种方式表示怀疑，主要在于：

角色扮演是额外的心智负担：对于理解自身角色，再到做出正确行动，本质是基于人类分工，基于个人认知，而LLM通常有非常广的知识，这二者并不能类比转换
基于角色的上下文隔离是低效的：人类常常陷入分工过细的“电话地狱”，Agent也不例外
基于角色的流程是脆弱的：经常由于某一个角色设计存在缺陷，导致整体处于木桶效应之中

Task Based Multi Agent Systems

Anthropic（和我）比较倡导的方案是按照任务划分子Agent，从而保护主Agent的上下文。比如在搜索场景中，可以并发多个Agent搜索多个领域，最后汇总成多份报告，再由审查者或主Agent进行分析。

这种方式的优势在于，主Agent从始至终负责用户需求或任务目标，而子Agent仅提供上下文层面的参考，而不是负责整个任务的执行。其次，子Agent不需要理解自身角色，从而可以更加专注自身任务，从而获得更好的性能表现。

但这一模式并不是万能的，我曾尝试分包一些代码编辑任务，但实际上表现并不好，目前来看，这一模式行之有效的只有信息搜集/上下文获取，而不是进行修改。这和单个人类使用各种工具辅助最后完成任务非常相似，或许用超级个体来比喻这种构建方式更加适当。

LLM-as-judge evaluation

现在我们已经有了足够的经验来构建一个长时间运行的Agent，至少我们可以让他一直跑下去，并知道在某些任务中可以并行或协作。现在，我们还有一个最重要的问题有待解决：如何评估Agent的行动是否正确/恰当/有效。当一次代码编辑操作成功的时候，Agent只能从工具返回中获悉编辑成功，而不是真实看到所带来的改变。即使有测试用例，也只能规范代码的“围栏”而不是确认代码的正确。在其他领域，比如报告撰写、个人助手，则可能连测试用例也没有。

目前的一大研究重点是使用LLM进行评价，而其中最重要的是人类在LLM进行自动化评价的过程中，如何为评价Agent构建上下文，这包括：

设计工具来观测当前任务状态和主Agent影响
设计工作流程来指导Agent进行评测
收集欺骗性案例，帮助评测Agent避开欺骗性事实

正如The Second Half一文，现在Agent设计已经进入下半场，如何评测Agent将是把强化学习从后训练扩展到推理时的重要研究课题。

References

English Version

What is Context Engineering

Two months ago, I wrote a blog post (Agent Design Note) documenting some key points in designing a Coding Agent. Now I want to provide a complete exposition of my understanding of Context Engineering, which I believe is perhaps the most important aspect of building any Agent today.

Key Points of Context Engineering

The most crucial aspect of LLMs currently is the context window. While LLMs perform increasingly well in needle-in-haystack tests, they typically struggle to understand logical relationships once any logic-related content appears. Context Engineering aims to better manage context, enabling LLMs to better understand problems or complete tasks.

These are my current focal points:

Think from an Agent’s perspective and provide context
- Through Tool descriptions, parameters, implementations, and return values (Observations)
- Replace workflows with few-shots in system prompts
- Other context integration solutions (RAG, HyDE, Post prompt, etc.)
Protect Agent context
- Through task decomposition approaches (discussed below)
- Through Compact Context methods to optimize context
Keep it simple, infrastructure first
- Maintain simple, atomic, general-purpose tool design; otherwise use workflows with few-shots + fixed tools
- Complete infrastructure like compacting first, then consider complex systems like multi-agent

Compact Context

First, let’s discuss how to manage Agent context in long tasks. Currently, SOTA models have 200K context length, with Gemini 2.5 Pro even reaching 1M context length. However, for code engineering, multi-turn conversations can quickly exhaust 200K context, necessitating context compression.

One policy-based context compression approach sets a fixed watermark, such as 50% token consumption, to trigger context compression. While preserving N messages, it summarizes the previous N contexts and replaces these N messages with the summary. N can be chosen as 0 (preserve no messages), 2 (most recent 2), 1/2 (half the context), or 1/4 (25% of context). This approach mainly adjusts three dimensions:

Context compression model’s prompt and output structure
N value: represents how many recent contexts are statistically important
Watermark: represents compression efficiency

Another strategy involves designing a memory system that retrieves context from the memory system rather than preserving all context. This memory system can be LLM-based or based on RAG or other search technologies.

Comparing the two, the former has higher caching efficiency, clearer debugging focus, and is easier to implement well, while the latter is more intelligent but lacks widely adopted practices. I’ve seen the former approach in Cline, Claude Code, etc., while Windsurf reportedly uses a hybrid of both.

Role Based Multi Agent Systems

Another approach to address context issues involves multiple Agents collaborating to complete work, leading to the design of workflows or centralized Agents. One method involves manually or automatically designing various roles, then having LLMs engage in role-playing, immersing themselves in their roles to complete designated tasks.

I’m skeptical of this approach, mainly because:

Role-playing creates additional cognitive burden: Understanding one’s role and then taking correct action is essentially based on human division of labor and individual cognition, while LLMs typically have very broad knowledge—these two cannot be analogously converted
Role-based context isolation is inefficient: Humans often fall into “phone hell” due to overly detailed division of labor, and Agents are no exception
Role-based processes are fragile: Often, flaws in a single role design cause the entire system to suffer from the barrel effect

Task Based Multi Agent Systems

Anthropic (and I) advocate for dividing sub-Agents by task to protect the main Agent’s context. For example, in search scenarios, multiple Agents can concurrently search different domains, finally consolidating into multiple reports for analysis by a reviewer or main Agent.

This approach’s advantage is that the main Agent remains responsible for user needs or task objectives throughout, while sub-Agents only provide contextual reference rather than being responsible for entire task execution. Additionally, sub-Agents don’t need to understand their own roles, allowing them to focus more on their tasks and achieve better performance.

However, this model isn’t universal. I’ve attempted to decompose some code editing tasks, but the actual performance wasn’t good. Currently, this model seems effective only for information gathering/context acquisition, not for making modifications. This closely resembles a single human using various tools to ultimately complete tasks—perhaps describing this construction method as a “super individual” is more appropriate.

LLM-as-judge evaluation

Now we have sufficient experience to build a long-running Agent—at least we can keep it running continuously and know it can parallelize or collaborate on certain tasks. Now we face one final crucial question: how to evaluate whether an Agent’s actions are correct/appropriate/effective. When a code editing operation succeeds, the Agent can only learn “edit successful” from tool returns, not actually see the changes brought about. Even with test cases, they only regulate code “boundaries” rather than confirm code correctness. In other domains like report writing or personal assistance, there might not even be test cases.

A major current research focus is using LLMs for evaluation, with the most important aspect being how humans construct context for evaluation Agents during automated LLM evaluation processes, including:

Designing tools to observe current task state and main Agent impact
Designing workflows to guide Agents in evaluation
Collecting deceptive cases to help evaluation Agents avoid deceptive facts

As stated in The Second Half, Agent design has now entered the second half, and how to evaluate Agents will be an important research topic for extending reinforcement learning from post-training to inference time.

References

The AGI era requires end-to-end product design

2025-06-07T16:00:00.000Z

The Measurement Crisis in Traditional Product Development

In the internet era, we’ve grown accustomed to a mature product development paradigm: validating feature improvements through A/B testing, making data-driven decisions, and iteratively optimizing user experiences. This methodology is built on a core assumption—that product features are relatively static and controllable, allowing us to isolate variables and precisely measure user responses to specific changes.

However, the advent of the AGI era is fundamentally challenging this assumption.

The Measurement Challenges Brought by AGI

Dynamic Adaptation Dilemma: AGI systems learn and adjust in real-time based on each user’s interactions. The same “feature” exhibits dramatically different behavioral patterns across different users, making it impossible to maintain the controlled environments that traditional A/B testing relies upon.

Causal Relationship Blur: Traditional testing seeks clear “feature change → behavior change” causal chains. But in AGI applications, user satisfaction stems from the system’s overall intelligent performance rather than specific components. When a product’s core value is “intelligence” itself, designing meaningful control groups becomes extremely difficult.

Failure of Measurement Units: Internet products measure buttons, pages, and functional modules. What is the value unit for AGI products? Is it conversation rounds? Problem-solving quality? Or the accuracy of user intent understanding? Traditional metrics like conversion rates and click-through rates appear inadequate when facing continuously learning intelligent systems.

From Measurement Crisis to Design Transformation

These fundamental measurement challenges actually point to a deeper issue: traditional product development processes themselves may no longer be applicable.

When we can’t accurately measure and optimize products through conventional means, we need to rethink how products are “designed” in the first place. This isn’t just about adjusting measurement methods—it’s a paradigm shift in the entire product creation process.

The Inevitability of End-to-End Design

Traditional product development is a linear relay process: user research → requirements analysis → design prototyping → development implementation → testing optimization → market promotion. Each stage is handled by specialized teams, with handoffs managed through documentation and specifications.

But AGI systems change these rules entirely. An intelligent system can:

Understand and analyze user needs in real-time
Dynamically generate personalized interfaces and interactions
Autonomously handle complex business logic
Continuously learn and improve based on feedback
Proactively communicate value and suggestions to users

This means product “design” is no longer a one-time planning activity, but a continuous, dynamic process. AGI becomes an intelligent bridge connecting user needs and product implementation, blurring the boundaries of traditional team divisions.

New Era Product Design Challenges

End-to-end product design brings unprecedented challenges:

Balancing Consistency and Adaptability: How do we maintain consistency and predictability in user experience while the system continuously learns and evolves?

Redistributing Control: When systems can make autonomous decisions, how should control be distributed among users, product managers, and AI?

Building Trust Mechanisms: How do we establish and maintain user trust when product behavior isn’t entirely predictable?

Reconstructing Value Measurement: Since traditional metrics fail, what new indicators do we need to measure the success of intelligent products?

Toward a New Product Development Paradigm

In the AGI era, the most successful products will be those that truly embrace this end-to-end nature. They won’t treat AGI as a plug-and-play functional module, but will position intelligence as the product’s foundational architecture and core capability.

This requires us to redefine how product teams are organized, their workflows, and success metrics. We need new frameworks to evaluate task completion quality, long-term user relationship development, and the system’s learning evolution capabilities.

More importantly, we need to learn to grow alongside continuously evolving products, finding new certainties within dynamic change. This isn’t just a technical challenge—it’s a fundamental restructuring of our product thinking.

AGI-era product design is essentially about learning to create value within uncertainty and maintaining direction amid constant change. This is an entirely new game that requires entirely new rules.

重新思考数据

2025-05-31T16:00:00.000Z

最近一些讨论让我重新意识到大模型时代的数据采集、数据挖掘和数据质量或许需要新范式。

回顾数据制胜的现代互联网行业，人们从电商等大数场景出发，利用大数定律进行了各种各样的数据采集和实验，最后可以看到，最尊重数据的公司从某种程度上最拟合（也可能是过拟合）了事实，从而建立起了庞大的商业帝国。

而基于互联网数据所生产的大模型，人们从前的数据方法论好像失去了魔力：

人们常用大模型解决长尾需求：大模型实验速度慢，实验成本高
数据管道不合理：人们目前仅能通过反问用户的方式来进行比较高质量的数据收集，而点赞回答、打赏agent等方式要么导致太过谄媚，要么根本没有效果
数据应用难：将收集到的数据应用于预训练或后训练都有很大难度

对数据飞轮的质疑：数据复杂度的重要性

KIMI曾经相信数据飞轮，通过砸钱抢用户，再用用户数据增强模型的方式打败竞争者，但最后不得不因为使用用户数据的各种困难和失败放弃了这一战略。同样的，OpenAI有最多的chat用户，但他们从领先全球到现在三足鼎立，可见数据飞轮只是提出，而无人成功。但在曾经的互联网行业，人们叫它规模效应，规模效应曾经让Faceboook、YouTube、微信等产品获得成功，但在大模型领域似乎完全不同。

这可能是因为这几点原因：

聊天数据并不比爬虫来的数据更优质，而数量少，成本高，导致预训练无用
聊天数据并不是内容质量，也不具备消费价值，无法病毒传播，无法形成规模效应中传播的部分
聊天数据在后训练（RL）中，容易导致模型崩溃，或限制模型上限

借鉴通过高精地图做智能驾驶的前车之鉴，我们不应该相信有高精地图的企业最容易做出智能驾驶；相反，按照端到端来看，谁能拥有司机的复杂规划能力，拥有更好的场景反馈效应，谁才能真正逐步做到智能驾驶。

那么我们应该重视什么样的数据？代表人类复杂规划能力的数据

Cline的Plan模式，程序员与AI进行多轮对话组织技术方案的过程
DeepResearch中，AI的多个反问的多轮对话，以及后续可能还有继续的用户调研
From scratch的项目初始化后，用户进一步的需求（代表AI没有意识到的需求/修改方向）

构建反馈回路

仅反问并且仅收集反问是一种很低效的反馈模式：

缺乏上下文，也就难以反映复杂规划能力
缺少反问后效果的反馈

如何更好构建反馈回路：我现在想到的一个方式是借鉴Claude玩宝可梦，不仅反问用户需求，还要让AI在过程中做笔记，记录上下文。

第二步是思考如何将反馈应用到AI上，不止是调整对所有人生效的prompt，还要根据每个用户定制其上下文相关的信息，从而更适合每一个人。

最后是思考如何“共享”上下文，通过文字进行上下文共享的方式太过低效，多模型间迁移也存在困难，我们可能需要一个针对LLM的大一统的高级表达方式。

大模型是大数据的终极产物，那么什么是大模型的终极产物？