大模型的上下文窗口是有限的。Hermes Agent 通过智能的 Token 预算管理,确保在有限窗口内保留最重要的信息。
Token 预算分配
- 系统提示词:20%
- 身份记忆 + 长期记忆:15%
- 会话上下文:50%
- 工具调用结果:15%
上下文压缩
当对话超过预算时,Agent 会执行上下文压缩:将早期对话摘要为简洁的要点,保留最近对话的完整内容。
优先级策略
不同类型的信息有不同的保留优先级:工具调用结果 > 用户明确指令 > 会话摘要 > 历史闲聊。
大模型的上下文窗口是有限的。Hermes Agent 通过智能的 Token 预算管理,确保在有限窗口内保留最重要的信息。
当对话超过预算时,Agent 会执行上下文压缩:将早期对话摘要为简洁的要点,保留最近对话的完整内容。
不同类型的信息有不同的保留优先级:工具调用结果 > 用户明确指令 > 会话摘要 > 历史闲聊。