支持百万级并发 · 记忆与工作流原生架构
Memory-First & MCP-Ready & Agent Skills Support
依托自研 Agent 工作流核心引擎,深度集成独创的 “L1/L2/L3 三级记忆” 机制,并原生内建对 MCP (Model Context Protocol) 协议的支持。
通过简单配置即可快速赋予 Agent 海量工具调用与专业技能 (Skills),在毫秒级召回历史语境的同时,实现多 Agent 的精准路由与复杂任务协同。
1. 系统架构概述
本架构基于 存算分离 (Disaggregated Compute-Storage) 理念构建,旨在打造面向 Agent Workflow 的企业级状态引擎。 通过深度整合 “L1/L2/L3 分层记忆” 与 “全链路异步事件驱动” 机制,系统成功将大模型推理的计算资源与复杂业务的会话状态解耦。 在保障 高通量 (High Throughput) 并发访问的同时,实现全生命周期数据的亚毫秒级路由、精准召回与持久化归档。
接入与逻辑层
接入层: FastAPI + K8S Ingress,支持粘性会话(Sticky)以优化上下文加载。
逻辑层: 无状态(Stateless)设计,Agent 状态在 Pod 重启时可从 L2 无损恢复。
短期记忆与缓冲
Redis Cluster: 存储 Checkpoint(历史对话快照)用于故障恢复;维护通过配置轮对话缓冲区 (Buffer) 作为摘要的数据源。
长期记忆持久化
Milvus Cluster: 接收由 Agent 工作流生成的语义摘要向量,存储关键实体与摘要信息,提升长周期检索准确度。
1.1 基础设施与云原生高并发实践
为支撑百万并发,底层完全遵循 One Process Per Container 原则, 结合 HPA 弹性伸缩与健康探针,确保系统在极端流量下的自愈能力。
K8S部署: 每个 Pod 运行 1 个 Uvicorn 进程,将并发管理权移交 K8S Replicas。 启用 uvloop 替代默认事件循环,降低上下文切换开销。
配置 Readiness Probe 确保 Redis/Milvus 连接就绪后再切入流量。 配合 preStop 钩子与 SIGTERM 捕获,确保在 Rolling Update 时, 正在生成的 Agent 响应能平滑完成,绝不中断用户对话。
基于业务指标扩容: 不再仅依赖 CPU。通过 KEDA 监控 Pending Request Queue 或 Active Agent Sessions 深度,实现更精准的秒级扩容。 配合 Ingress Cookie Affinity 优化缓存命中。
2. 详细设计与核心流程
核心业务流程
1. 请求响应: 建立 SSE 连接,Agent 从 Pool 获取实例执行流式输出。
2. 状态同步: Agent 将对话同步至 Redis Checkpoint 与 Buffer。
3. 工作流摘要: 当 Buffer 满配置设置轮时,Agent 主动触发内部摘要节点,调用 LLM 生成摘要并写入 Milvus。
生命周期管理 (TTL)
关键优化: 针对未满配置轮次配置阈值的缓冲数据,在会话释放时会执行临时落盘以保障数据安全。当用户下次连接时,系统会自动重载该碎片数据并继续追加新对话,直至累计达到阈值后,才触发最终的语义摘要与向量化归档。这既杜绝了数据丢失,又彻底避免了向量库产生大量碎片数据。
Input Check}}:::logic Retriever[记忆检索器]:::logic CoreLogic[核心对话逻辑]:::component SummaryNode[摘要生成节点]:::logic %% 流程连线 API --> Pool Pool -- "无状态/新Pod" --> LoadRedis Pool -- "本地命中" --> Agent LoadRedis --> Agent Agent --> InputGuard InputGuard -- "需要记忆" --> Retriever InputGuard -- "无需记忆" --> CoreLogic Retriever --> CoreLogic CoreLogic -.->|"Buffer>=threshold"| SummaryNode end %% L1 输出 CoreLogic -- "流式响应" --> User %% 子图 L2: 缓存层 subgraph L2 [L2: 缓存与缓冲层] Sync[状态同步器] Checkpoint[(Redis Checkpoint)]:::db Buffer[(Redis Buffer)]:::db Sync --> Checkpoint Sync --> Buffer end %% 子图 L3: 持久层 subgraph L3 [L3: 长期记忆持久化] VectorDB[(Milvus 向量库)]:::db end %% 1. 检索路径 Retriever -.->|"1. 请求数据"| Checkpoint Checkpoint -.->|"2. 穿透读取"| VectorDB VectorDB -.->|"3. 返回向量"| Checkpoint %% 2. 状态同步 CoreLogic -.->|"异步同步"| Sync %% 3. 摘要更新 Buffer -.->|"数据源"| SummaryNode SummaryNode -- "4. 更新摘要" --> Checkpoint Checkpoint -.->|"5. 异步落盘"| VectorDB
3. 关键实现细节与优化
Agent 驱动的摘要策略
摘要生成不再依赖外部 Worker,而是作为 Agent 工作流的一部分(作为Agent工作流 的一个条件 Node)。这确保了上下文理解的一致性,并能更灵活地控制摘要生成的粒度。
K8S 部署与网络优化
开启 tcp_tw_reuse 解决短连接积压。Ingress 强制 Session Affinity 确保 L1 命中率。使用 KEDA 根据负载动态扩容 Agent Pod,保障高流量下的稳定性。
异常处理与一致性
幂等写入: 摘要任务携带 batch_id,防止重复入库。
冷启动恢复: Pod 崩溃后依赖 Redis Checkpoint 重建本地内存状态。
4. 架构优越性与性能卓越性
本框架底层采用前沿的存算分离架构与多级智能缓存技术,从根本上突破了传统 Agent 在长程记忆调度与高并发处理下的性能瓶颈,确保系统在复杂任务链中依然保持极低延迟。
-
极致性能并发 (High Concurrency & Performance)
Zero-Copy 机制: 利用 L1 内存池技术,在会话保持期间,Agent 状态直接从内存读取,消除了 90% 的数据库网络 I/O 开销。
异步非阻塞: 全链路基于AsyncIO,配合 Write-Behind(异步后写)策略,确保用户的实时交互(TTFT)不受底层数据库写入延迟的影响。 - 企业级扩展性 (Scalability) 存算分离: 计算节点(Agent Pod)近乎无状态设计,状态数据下沉至 Redis/Milvus。这意味着系统可以配合 KEDA 根据 CPU 或队列深度进行秒级弹性扩容,轻松应对百万级用户流量洪峰,且无单点瓶颈。
- 记忆准确性与成本优化 (Accuracy & Cost) 不同于传统的机械截断,本框架基于 Agent 认知的语义摘要能保留对话中隐含的关键事实。通过 Redis 缓冲层减少了 Milvus 90% 的高频写入,结合语义压缩技术,降低了 70% 的向量存储成本,实现了高精度与低成本的完美平衡。