arXiv 2604.15039 LLM推理系统

Prefill-as-a-Service
下一代模型的KV Cache可以跨数据中心了

Moonshot AI & 清华大学联合提出跨数据中心PD解耦架构,通过选择性卸载长上下文Prefill到独立计算集群,在商用以太网上传输KV Cache,实现54%吞吐量提升与64%延迟降低。

Ruoyu Qin, Weiran He 等
Moonshot AI & Tsinghua University
2026年4月

一句话总结

这篇论文提出了 PrfaaS (Prefill-as-a-Service) 架构,证明在混合注意力模型时代,KV Cache 小到可以通过商用以太网跨数据中心传输。系统通过选择性卸载长上下文Prefill带宽感知调度混合前缀缓存池三大技术,在1T参数混合模型上实现了54%吞吐量提升64% P90延迟降低,且仅消耗13%的跨数据中心带宽。

背景:PD解耦遇到了什么瓶颈?

1 PD解耦已成标准

大模型推理分为两个阶段:Prefill(计算密集型,处理输入token生成KV Cache)和 Decode(内存带宽密集型,逐个生成输出token)。将两者分离到不同节点可以独立优化,这就是 PD Disaggregation,已被 vLLM、SGLang、Dynamo 等框架采用。

2 KV Cache是罪魁祸首

在传统的 Dense Attention 模型中,KV Cache 大小随序列长度线性增长。一个32K token的请求,单个MiniMax-M2.5实例产生的KV Cache吞吐率高达 60 Gbps,远超单台机器的网卡容量,更不可能跨数据中心传输。

核心矛盾

PD解耦的愿景是:Prefill跑在计算密集型加速器上,Decode跑在内存带宽密集型加速器上。但由于KV Cache太大,两者被迫锁死在同一个高带宽RDMA网络域内(通常是单个数据中心),无法真正实现异构部署和资源弹性扩展。

混合注意力架构:改变游戏规则的新变量

近期的混合注意力模型(Kimi Linear、MiMo-V2-Flash、Qwen3.5-397B、Ring-2.5-1T)将少量全注意力层与大量线性复杂度层交错排列。这带来了KV Cache的数量级下降

模型注意力类型A:B 比例参数量
Kimi LinearKDA + MLA3:148B
MiMo-V2-FlashSWA + GQA5:1309B
Qwen3.5-397BGDN + GQA3:1397B
Ring-2.5-1TLightning + MLA7:11T

以32K tokens为例,MiMo-V2-Flash的KV吞吐仅4.66 Gbps,而Dense模型MiniMax-M2.5高达59.93 Gbps——13倍的差距

挑战:KV Cache变小 alone 不够

论文尖锐地指出:仅凭混合架构减少了KV Cache,就天真地把所有Prefill外部化,仍然会在生产环境中失败。原因有四个:

1

负载突发 (Bursty)

真实推理流量不是平稳的,突发请求会导致队列积压和带宽瞬时拥塞。

2

请求长度高度偏斜

大部分请求很短,少数请求极长。对所有请求一视同仁地做跨集群传输是低效的。

3

Prefix Cache 分布不均

缓存命中率在不同集群间不均衡,导致部分请求需要重新计算大量KV。

4

跨集群带宽波动

数据中心之间的网络带宽不是恒定的,会随时间和共享流量变化。

PrfaaS 架构设计

现状:紧耦合单集群

Prefill节点
RDMA高带宽
Decode节点
KV Store共享
问题:KV Cache太大,必须锁死在同一RDMA域内

PrfaaS:跨集群解耦

PrfaaS集群 计算密集 · 长上下文Prefill
以太网
KV Cache传输
本地PD集群 带宽密集 · Decode
优势:选择性卸载 + 智能调度,仅需13%以太网带宽

三大子系统

C

计算子系统 (Compute)

包含两类集群:PrfaaS集群(专用高吞吐计算加速器,处理长上下文Prefill)和 本地PD集群(常规PD解耦部署,处理短请求Prefill和全部Decode)。两类集群使用同质硬件(便于运维),但可根据负载独立扩缩容。

N

网络子系统 (Network)

双层网络:集群内使用RDMA(低延迟集体通信和PD KV传输),集群间使用商用以太网/VPC Peering(跨数据中心KV Cache传输)。关键洞察:混合模型的KV吞吐已降至现代数据中心以太网可承载的范围。

S

存储子系统 (Storage)

每个集群内构建分布式混合前缀缓存池(Hybrid Prefix Cache Pool)。这是PrfaaS的核心创新之一:Linear Attention的recurrent states和Full Attention的KV Cache被统一管理在统一块池中,支持跨请求复用和跨集群传输。

四大核心技术

1

基于长度的选择性路由 (Length-based Threshold Routing)

PrfaaS不是将所有Prefill都外部化,而是设定一个路由阈值 t。只有当请求的增量未缓存长度 l > t 时,才会被路由到PrfaaS集群。短请求留在本地PD集群处理。

# 路由决策逻辑
if incremental_uncached_length > t:
route_to_prfaas_cluster() # 长请求 → 计算集群
else:
route_to_local_pd() # 短请求 → 本地PD

这样做的原因是:短请求的Prefill本身很快,跨集群传输KV Cache的 overhead 反而得不偿失。只有长请求才能从PrfaaS集群的高计算吞吐中获益。

2

混合前缀缓存池 (Hybrid Prefix Cache Pool)

混合模型的KV Cache有两种形态:Linear Attention的recurrent states(固定大小,与序列长度无关)和 Full Attention的传统KV Cache(随长度增长)。PrfaaS在vLLM的hybrid KV Cache Manager基础上,构建了统一的块池管理系统。

Prefix-Cache Blocks
可复用、块对齐、用于前缀匹配命中
Transfer-Cache Blocks
跨集群传输用,传输完成后丢弃
Free Blocks
空闲块,动态分配给上述两类
3

双时间尺度调度 (Dual-Timescale Scheduling)

调度器在两个时间尺度上运作,分别应对不同类型的系统动态:

短期 带宽与Cache感知路由

持续监控PrfaaS集群的出口利用率。当接近带宽上限时,动态调整路由阈值t,将部分请求回退到本地PD集群。同时考虑prefix cache affinity:如果请求在某个集群有缓存命中,优先路由到该集群。

长期 流量驱动的分配重优化

在更长的时间尺度上(分钟级),监控各阶段的队列深度,识别系统瓶颈。如果Prefill成为瓶颈,将PD集群中的部分节点从Decode角色转换为Prefill角色(或反之),并重新优化路由阈值t。

4

吞吐量最优配置模型 (Throughput-Optimal Configuration)

论文构建了一个解析吞吐量模型,将系统建模为三级流水线:PrfaaS Prefill → PD-P Prefill → PD-D Decode。系统整体吞吐量由最慢的瓶颈阶段决定。

两个关键优化变量通过二维网格搜索求解:

  • 1. 路由阈值 t:决定多少比例请求走PrfaaS路径(影响p, l_long, l_short)
  • 2. PD集群内Prefill/Decode配比 N_p/N_d:决定本地资源分配

实验结果:1T参数混合模型案例研究

论文使用了一个内部1T参数的混合架构模型(遵循Kimi Linear架构,3:1的KDA:MLA层比例),在真实的异构部署环境下进行了评估。

+54%
吞吐量提升
vs 同构PD基线
-64%
P90 TTFT降低
长上下文首token延迟
+15%
同等成本吞吐增益
成本不变的情况下

三种部署方案对比

指标 PrfaaS-PD 同构PD 朴素异构PD
路由阈值 t19.4K
实例配比 (PrfaaS/PD-P/PD-D)4 / 3 / 5— / 9 / 34 / — / 8
Mean / P90 TTFT (s)2.22 / 3.514.44 / 9.731.74 / 3.51
各阶段吞吐 (req/s)1.61 / 1.64 / 3.91— / 2.11 / 2.352.45 / — / 6.25
系统总吞吐 Λ_max3.242.112.45
相对基线倍数1.54×1.00×1.16×

关键发现:朴素异构PD为什么不够好?

朴素异构PD(无调度优化,所有Prefill走H200、所有Decode走H20)虽然TTFT低,但吞吐量仅比同构PD高16%,远低于PrfaaS的54%。根本原因在于:它没有选择性卸载,导致Prefill和Decode之间的吞吐严重失衡,大量Decode容量被闲置。PrfaaS通过智能调度和路由阈值,让两个阶段的吞吐同时接近饱和。

跨数据中心带宽消耗

13 Gbps
PrfaaS出口带宽
/
100 Gbps
可用链路容量
仅占用 13%

在100 Gbps的跨数据中心链路上,PrfaaS仅消耗约13 Gbps,留有充足余量。这意味着即使在带宽波动或突发负载下,系统也能稳定运行。

讨论与启示

KV Cache友好的模型架构

MLA、Sliding Window Attention、Linear Attention等技术已证明可以在不牺牲模型能力的前提下大幅减少KV Cache。未来的模型协同设计(model-system co-design)将同时优化FLOPs和KV传输量。

KV Cache压缩与复用

H2O、KIVI、CacheGen等方法通过量化或重要性驱逐进一步压缩KV Cache。CacheBlend和FusionRAG通过跨请求融合复用KV。这些技术与PrfaaS是互补的,可以进一步降低跨数据中心带宽需求。

阶段专用推理硬件

NVIDIA Rubin CPX专门针对Prefill吞吐优化,而LPU和Taalas HC1强调Decode带宽。PrfaaS的跨数据中心架构天然契合这一趋势:不同的芯片可以部署在不同的数据中心,各自发挥所长。

从"能不能"到"值不值得"

论文的核心洞察是:混合架构让跨数据中心KV传输从"不可能"变成了"可能",但PrfaaS将其进一步变成了"值得做"。关键在于选择性——不是全有或全无,而是让系统根据实时条件动态决策。

总结

Prefill-as-a-Service 代表了LLM推理架构的下一个进化方向。它证明了:

1

在混合注意力模型时代,KV Cache已经小到可以通过商用以太网跨数据中心传输

2

仅靠模型架构改进不够,需要模型-系统协同设计:选择性卸载 + 智能调度 + 全局缓存管理

3

PD解耦的边界从单数据中心RDMA域扩展到跨数据中心以太网,为异构部署和资源弹性打开了新空间

4

在生产环境中可实现 54% 吞吐提升64% 延迟降低,且仅消耗 modest 的跨数据中心带宽