📊

技术深度 2026-02-28

Hermes Agent 对话流控：Token 预算与上下文窗口管理

大模型的上下文窗口是有限的。Hermes Agent 通过智能的 Token 预算管理，确保在有限窗口内保留最重要的信息。

Token 预算分配

系统提示词：20%
身份记忆 + 长期记忆：15%
会话上下文：50%
工具调用结果：15%

上下文压缩

当对话超过预算时，Agent 会执行上下文压缩：将早期对话摘要为简洁的要点，保留最近对话的完整内容。

优先级策略

不同类型的信息有不同的保留优先级：工具调用结果 > 用户明确指令 > 会话摘要 > 历史闲聊。