网站图标
景骐智能 AI赋能·智创未来
专注AI领域定制化服务,提供精准高效快速的解决方案
High-Performance Agent Engine · 高性能智能体工作流引擎

支持百万级并发 · 记忆与工作流原生架构
Memory-First & MCP-Ready & Agent Skills Support

底层由 以 AsyncIO 全链路异步架构为内核 协同 Kubernetes 弹性集群,锻造工业级的 AI 算力引擎与稳固底座。
依托自研 Agent 工作流核心引擎,深度集成独创的 “L1/L2/L3 三级记忆” 机制,并原生内建对 MCP (Model Context Protocol) 协议的支持。
通过简单配置即可快速赋予 Agent 海量工具调用与专业技能 (Skills),在毫秒级召回历史语境的同时,实现多 Agent 的精准路由与复杂任务协同。

1. 系统架构概述

本架构基于 存算分离 (Disaggregated Compute-Storage) 理念构建,旨在打造面向 Agent Workflow 的企业级状态引擎。 通过深度整合 “L1/L2/L3 分层记忆” 与 “全链路异步事件驱动” 机制,系统成功将大模型推理的计算资源与复杂业务的会话状态解耦。 在保障 高通量 (High Throughput) 并发访问的同时,实现全生命周期数据的亚毫秒级路由、精准召回与持久化归档。

L1

接入与逻辑层

接入层: FastAPI + K8S Ingress,支持粘性会话(Sticky)以优化上下文加载。
逻辑层: 无状态(Stateless)设计,Agent 状态在 Pod 重启时可从 L2 无损恢复。

Agent Workflow Stateless Pod Zero-IO
L2

短期记忆与缓冲

Redis Cluster: 存储 Checkpoint(历史对话快照)用于故障恢复;维护通过配置轮对话缓冲区 (Buffer) 作为摘要的数据源。

Redis Cluster Checkpoint Sliding Window
L3

长期记忆持久化

Milvus Cluster: 接收由 Agent 工作流生成的语义摘要向量,存储关键实体与摘要信息,提升长周期检索准确度。

Milvus Vector DB Long-term Memory

1.1 基础设施与云原生高并发实践

为支撑百万并发,底层完全遵循 One Process Per Container 原则, 结合 HPA 弹性伸缩与健康探针,确保系统在极端流量下的自愈能力。

Docker 单进程高性能容器

K8S部署: 每个 Pod 运行 1 个 Uvicorn 进程,将并发管理权移交 K8S Replicas。 启用 uvloop 替代默认事件循环,降低上下文切换开销。

最佳实践:单容器单进程模式,消除资源争抢,确保 HPA 扩容指标精确 CMD ["uvicorn", "main:app", "--loop", "uvloop", "--workers", "1"]
健壮性与零宕机更新

配置 Readiness Probe 确保 Redis/Milvus 连接就绪后再切入流量。 配合 preStop 钩子与 SIGTERM 捕获,确保在 Rolling Update 时, 正在生成的 Agent 响应能平滑完成,绝不中断用户对话。

readinessProbe: httpGet: {path: "/health", port: 8000} lifecycle: preStop: {exec: {command: ["/bin/sleep", "5"]}}
KEDA 弹性调度 (HPA)

基于业务指标扩容: 不再仅依赖 CPU。通过 KEDA 监控 Pending Request QueueActive Agent Sessions 深度,实现更精准的秒级扩容。 配合 Ingress Cookie Affinity 优化缓存命中。

triggers: - type: prometheus metadata: query: sum(fastapi_active_connections)

2. 详细设计与核心流程

核心业务流程

1. 请求响应: 建立 SSE 连接,Agent 从 Pool 获取实例执行流式输出。
2. 状态同步: Agent 将对话同步至 Redis Checkpoint 与 Buffer。
3. 工作流摘要: 当 Buffer 满配置设置轮时,Agent 主动触发内部摘要节点,调用 LLM 生成摘要并写入 Milvus。

生命周期管理 (TTL)

关键优化: 针对未满配置轮次配置阈值的缓冲数据,在会话释放时会执行临时落盘以保障数据安全。当用户下次连接时,系统会自动重载该碎片数据并继续追加新对话,直至累计达到阈值后,才触发最终的语义摘要与向量化归档。这既杜绝了数据丢失,又彻底避免了向量库产生大量碎片数据。

系统数据流向图 Agent-Driven Architecture
graph TD %% 样式定义 classDef user fill:#f9f,stroke:#333,stroke-width:2px,color:black; classDef component fill:#e0e7ff,stroke:#4361ee,stroke-width:2px,color:black; classDef db fill:#dcfce7,stroke:#22c55e,stroke-width:2px,color:black; classDef logic fill:#fef3c7,stroke:#f59e0b,stroke-width:2px,color:black; %% 外部节点 User((用户)):::user Ingress[K8S Ingress]:::component API[FastAPI Pod Replicas]:::component %% 外部连线 User -- "1. HTTP/SSE Request" --> Ingress Ingress -- "Load Balance" --> API %% 子图 L1: Agent 运行时 (逻辑核心) subgraph L1 [L1: Agent Runtime] Pool{ChatInterfacePool} Agent[Agent 工作流]:::component LoadRedis[Redis 状态恢复] %% 核心逻辑模块 InputGuard{{输入检查
Input Check}}:::logic Retriever[记忆检索器]:::logic CoreLogic[核心对话逻辑]:::component SummaryNode[摘要生成节点]:::logic %% 流程连线 API --> Pool Pool -- "无状态/新Pod" --> LoadRedis Pool -- "本地命中" --> Agent LoadRedis --> Agent Agent --> InputGuard InputGuard -- "需要记忆" --> Retriever InputGuard -- "无需记忆" --> CoreLogic Retriever --> CoreLogic CoreLogic -.->|"Buffer>=threshold"| SummaryNode end %% L1 输出 CoreLogic -- "流式响应" --> User %% 子图 L2: 缓存层 subgraph L2 [L2: 缓存与缓冲层] Sync[状态同步器] Checkpoint[(Redis Checkpoint)]:::db Buffer[(Redis Buffer)]:::db Sync --> Checkpoint Sync --> Buffer end %% 子图 L3: 持久层 subgraph L3 [L3: 长期记忆持久化] VectorDB[(Milvus 向量库)]:::db end %% 1. 检索路径 Retriever -.->|"1. 请求数据"| Checkpoint Checkpoint -.->|"2. 穿透读取"| VectorDB VectorDB -.->|"3. 返回向量"| Checkpoint %% 2. 状态同步 CoreLogic -.->|"异步同步"| Sync %% 3. 摘要更新 Buffer -.->|"数据源"| SummaryNode SummaryNode -- "4. 更新摘要" --> Checkpoint Checkpoint -.->|"5. 异步落盘"| VectorDB

3. 关键实现细节与优化

Agent 驱动的摘要策略

摘要生成不再依赖外部 Worker,而是作为 Agent 工作流的一部分(作为Agent工作流 的一个条件 Node)。这确保了上下文理解的一致性,并能更灵活地控制摘要生成的粒度。

K8S 部署与网络优化

开启 tcp_tw_reuse 解决短连接积压。Ingress 强制 Session Affinity 确保 L1 命中率。使用 KEDA 根据负载动态扩容 Agent Pod,保障高流量下的稳定性。

异常处理与一致性

幂等写入: 摘要任务携带 batch_id,防止重复入库。
冷启动恢复: Pod 崩溃后依赖 Redis Checkpoint 重建本地内存状态。

4. 架构优越性与性能卓越性

本框架底层采用前沿的存算分离架构多级智能缓存技术,从根本上突破了传统 Agent 在长程记忆调度与高并发处理下的性能瓶颈,确保系统在复杂任务链中依然保持极低延迟。

🚀 深度定制化支持 深耕AI工程/产品化,交付生产级价值。 不仅提供算法框架,更具备卓越的全栈适配能力。深入您的业务原点,从底层算力调度、模型微调到高层应用逻辑,为您深度定制端到端的全栈式AI解决方案,确保每一个场景都能精准落地。
90%+ L1 Cache 命中率
<50ms TTFT (首字延迟)
3x 并发吞吐量提升
  • 极致性能并发 (High Concurrency & Performance) Zero-Copy 机制: 利用 L1 内存池技术,在会话保持期间,Agent 状态直接从内存读取,消除了 90% 的数据库网络 I/O 开销。
    异步非阻塞: 全链路基于 AsyncIO,配合 Write-Behind(异步后写)策略,确保用户的实时交互(TTFT)不受底层数据库写入延迟的影响。
  • 企业级扩展性 (Scalability) 存算分离: 计算节点(Agent Pod)近乎无状态设计,状态数据下沉至 Redis/Milvus。这意味着系统可以配合 KEDA 根据 CPU 或队列深度进行秒级弹性扩容,轻松应对百万级用户流量洪峰,且无单点瓶颈。
  • 记忆准确性与成本优化 (Accuracy & Cost) 不同于传统的机械截断,本框架基于 Agent 认知的语义摘要能保留对话中隐含的关键事实。通过 Redis 缓冲层减少了 Milvus 90% 的高频写入,结合语义压缩技术,降低了 70% 的向量存储成本,实现了高精度与低成本的完美平衡。