Hermes Agent 流式响应实现：实时输出与中断控制

等待 AI 逐字输出是一件痛苦的事。Hermes Agent 的流式响应让你能实时看到 AI 的思考过程。

流式输出原理

使用 Server-Sent Events（SSE）协议，模型每生成一个 Token 就立即推送到客户端。在 HermesWindos 中，这意味着你可以实时看到文字逐字出现。

如果你发现 AI 的方向不对，随时可以点击「停止」按钮中断生成。已输出的内容会保留在对话中，你可以在中断点继续对话。

通过连接池复用和请求批处理，首 Token 延迟降低到 200ms 以内，流式吞吐量达到 80+ tokens/s。