等待 AI 逐字输出是一件痛苦的事。Hermes Agent 的流式响应让你能实时看到 AI 的思考过程。
流式输出原理
使用 Server-Sent Events(SSE)协议,模型每生成一个 Token 就立即推送到客户端。在 HermesWindos 中,这意味着你可以实时看到文字逐字出现。
中断控制
如果你发现 AI 的方向不对,随时可以点击「停止」按钮中断生成。已输出的内容会保留在对话中,你可以在中断点继续对话。
性能优化
通过连接池复用和请求批处理,首 Token 延迟降低到 200ms 以内,流式吞吐量达到 80+ tokens/s。