一句话总结
这篇论文提出了 PrfaaS (Prefill-as-a-Service) 架构,证明在混合注意力模型时代,KV Cache 小到可以通过商用以太网跨数据中心传输。系统通过选择性卸载长上下文Prefill、带宽感知调度和混合前缀缓存池三大技术,在1T参数混合模型上实现了54%吞吐量提升和64% P90延迟降低,且仅消耗13%的跨数据中心带宽。
背景:PD解耦遇到了什么瓶颈?
1 PD解耦已成标准
大模型推理分为两个阶段:Prefill(计算密集型,处理输入token生成KV Cache)和 Decode(内存带宽密集型,逐个生成输出token)。将两者分离到不同节点可以独立优化,这就是 PD Disaggregation,已被 vLLM、SGLang、Dynamo 等框架采用。
2 KV Cache是罪魁祸首
在传统的 Dense Attention 模型中,KV Cache 大小随序列长度线性增长。一个32K token的请求,单个MiniMax-M2.5实例产生的KV Cache吞吐率高达 60 Gbps,远超单台机器的网卡容量,更不可能跨数据中心传输。
核心矛盾
PD解耦的愿景是:Prefill跑在计算密集型加速器上,Decode跑在内存带宽密集型加速器上。但由于KV Cache太大,两者被迫锁死在同一个高带宽RDMA网络域内(通常是单个数据中心),无法真正实现异构部署和资源弹性扩展。
混合注意力架构:改变游戏规则的新变量
近期的混合注意力模型(Kimi Linear、MiMo-V2-Flash、Qwen3.5-397B、Ring-2.5-1T)将少量全注意力层与大量线性复杂度层交错排列。这带来了KV Cache的数量级下降:
| 模型 | 注意力类型 | A:B 比例 | 参数量 |
|---|---|---|---|
| Kimi Linear | KDA + MLA | 3:1 | 48B |
| MiMo-V2-Flash | SWA + GQA | 5:1 | 309B |
| Qwen3.5-397B | GDN + GQA | 3:1 | 397B |
| Ring-2.5-1T | Lightning + MLA | 7:1 | 1T |
以32K tokens为例,MiMo-V2-Flash的KV吞吐仅4.66 Gbps,而Dense模型MiniMax-M2.5高达59.93 Gbps——13倍的差距。
挑战:KV Cache变小 alone 不够
论文尖锐地指出:仅凭混合架构减少了KV Cache,就天真地把所有Prefill外部化,仍然会在生产环境中失败。原因有四个:
负载突发 (Bursty)
真实推理流量不是平稳的,突发请求会导致队列积压和带宽瞬时拥塞。
请求长度高度偏斜
大部分请求很短,少数请求极长。对所有请求一视同仁地做跨集群传输是低效的。
Prefix Cache 分布不均
缓存命中率在不同集群间不均衡,导致部分请求需要重新计算大量KV。
跨集群带宽波动
数据中心之间的网络带宽不是恒定的,会随时间和共享流量变化。
PrfaaS 架构设计
现状:紧耦合单集群
PrfaaS:跨集群解耦
三大子系统
计算子系统 (Compute)
包含两类集群:PrfaaS集群(专用高吞吐计算加速器,处理长上下文Prefill)和 本地PD集群(常规PD解耦部署,处理短请求Prefill和全部Decode)。两类集群使用同质硬件(便于运维),但可根据负载独立扩缩容。
网络子系统 (Network)
双层网络:集群内使用RDMA(低延迟集体通信和PD KV传输),集群间使用商用以太网/VPC Peering(跨数据中心KV Cache传输)。关键洞察:混合模型的KV吞吐已降至现代数据中心以太网可承载的范围。
存储子系统 (Storage)
每个集群内构建分布式混合前缀缓存池(Hybrid Prefix Cache Pool)。这是PrfaaS的核心创新之一:Linear Attention的recurrent states和Full Attention的KV Cache被统一管理在统一块池中,支持跨请求复用和跨集群传输。
四大核心技术
基于长度的选择性路由 (Length-based Threshold Routing)
PrfaaS不是将所有Prefill都外部化,而是设定一个路由阈值 t。只有当请求的增量未缓存长度 l > t 时,才会被路由到PrfaaS集群。短请求留在本地PD集群处理。
这样做的原因是:短请求的Prefill本身很快,跨集群传输KV Cache的 overhead 反而得不偿失。只有长请求才能从PrfaaS集群的高计算吞吐中获益。
混合前缀缓存池 (Hybrid Prefix Cache Pool)
混合模型的KV Cache有两种形态:Linear Attention的recurrent states(固定大小,与序列长度无关)和 Full Attention的传统KV Cache(随长度增长)。PrfaaS在vLLM的hybrid KV Cache Manager基础上,构建了统一的块池管理系统。
双时间尺度调度 (Dual-Timescale Scheduling)
调度器在两个时间尺度上运作,分别应对不同类型的系统动态:
持续监控PrfaaS集群的出口利用率。当接近带宽上限时,动态调整路由阈值t,将部分请求回退到本地PD集群。同时考虑prefix cache affinity:如果请求在某个集群有缓存命中,优先路由到该集群。
在更长的时间尺度上(分钟级),监控各阶段的队列深度,识别系统瓶颈。如果Prefill成为瓶颈,将PD集群中的部分节点从Decode角色转换为Prefill角色(或反之),并重新优化路由阈值t。
吞吐量最优配置模型 (Throughput-Optimal Configuration)
论文构建了一个解析吞吐量模型,将系统建模为三级流水线:PrfaaS Prefill → PD-P Prefill → PD-D Decode。系统整体吞吐量由最慢的瓶颈阶段决定。
两个关键优化变量通过二维网格搜索求解:
- 1. 路由阈值 t:决定多少比例请求走PrfaaS路径(影响p, l_long, l_short)
- 2. PD集群内Prefill/Decode配比 N_p/N_d:决定本地资源分配
实验结果:1T参数混合模型案例研究
论文使用了一个内部1T参数的混合架构模型(遵循Kimi Linear架构,3:1的KDA:MLA层比例),在真实的异构部署环境下进行了评估。
三种部署方案对比
| 指标 | PrfaaS-PD | 同构PD | 朴素异构PD |
|---|---|---|---|
| 路由阈值 t | 19.4K | — | — |
| 实例配比 (PrfaaS/PD-P/PD-D) | 4 / 3 / 5 | — / 9 / 3 | 4 / — / 8 |
| Mean / P90 TTFT (s) | 2.22 / 3.51 | 4.44 / 9.73 | 1.74 / 3.51 |
| 各阶段吞吐 (req/s) | 1.61 / 1.64 / 3.91 | — / 2.11 / 2.35 | 2.45 / — / 6.25 |
| 系统总吞吐 Λ_max | 3.24 | 2.11 | 2.45 |
| 相对基线倍数 | 1.54× | 1.00× | 1.16× |
关键发现:朴素异构PD为什么不够好?
朴素异构PD(无调度优化,所有Prefill走H200、所有Decode走H20)虽然TTFT低,但吞吐量仅比同构PD高16%,远低于PrfaaS的54%。根本原因在于:它没有选择性卸载,导致Prefill和Decode之间的吞吐严重失衡,大量Decode容量被闲置。PrfaaS通过智能调度和路由阈值,让两个阶段的吞吐同时接近饱和。
跨数据中心带宽消耗
在100 Gbps的跨数据中心链路上,PrfaaS仅消耗约13 Gbps,留有充足余量。这意味着即使在带宽波动或突发负载下,系统也能稳定运行。
讨论与启示
KV Cache友好的模型架构
MLA、Sliding Window Attention、Linear Attention等技术已证明可以在不牺牲模型能力的前提下大幅减少KV Cache。未来的模型协同设计(model-system co-design)将同时优化FLOPs和KV传输量。
KV Cache压缩与复用
H2O、KIVI、CacheGen等方法通过量化或重要性驱逐进一步压缩KV Cache。CacheBlend和FusionRAG通过跨请求融合复用KV。这些技术与PrfaaS是互补的,可以进一步降低跨数据中心带宽需求。
阶段专用推理硬件
NVIDIA Rubin CPX专门针对Prefill吞吐优化,而LPU和Taalas HC1强调Decode带宽。PrfaaS的跨数据中心架构天然契合这一趋势:不同的芯片可以部署在不同的数据中心,各自发挥所长。
从"能不能"到"值不值得"
论文的核心洞察是:混合架构让跨数据中心KV传输从"不可能"变成了"可能",但PrfaaS将其进一步变成了"值得做"。关键在于选择性——不是全有或全无,而是让系统根据实时条件动态决策。
总结
Prefill-as-a-Service 代表了LLM推理架构的下一个进化方向。它证明了:
在混合注意力模型时代,KV Cache已经小到可以通过商用以太网跨数据中心传输
仅靠模型架构改进不够,需要模型-系统协同设计:选择性卸载 + 智能调度 + 全局缓存管理
PD解耦的边界从单数据中心RDMA域扩展到跨数据中心以太网,为异构部署和资源弹性打开了新空间
在生产环境中可实现 54% 吞吐提升和 64% 延迟降低,且仅消耗 modest 的跨数据中心带宽