Prefill-as-a-Service 论文笔记 | 跨数据中心KV Cache推理架构

一句话总结

这篇论文提出了 PrfaaS (Prefill-as-a-Service) 架构，证明在混合注意力模型时代，KV Cache 小到可以通过商用以太网跨数据中心传输。系统通过选择性卸载长上下文Prefill、带宽感知调度和混合前缀缓存池三大技术，在1T参数混合模型上实现了54%吞吐量提升和64% P90延迟降低，且仅消耗13%的跨数据中心带宽。

背景：PD解耦遇到了什么瓶颈？

1 PD解耦已成标准

大模型推理分为两个阶段：Prefill（计算密集型，处理输入token生成KV Cache）和 Decode（内存带宽密集型，逐个生成输出token）。将两者分离到不同节点可以独立优化，这就是 PD Disaggregation，已被 vLLM、SGLang、Dynamo 等框架采用。

2 KV Cache是罪魁祸首

在传统的 Dense Attention 模型中，KV Cache 大小随序列长度线性增长。一个32K token的请求，单个MiniMax-M2.5实例产生的KV Cache吞吐率高达 60 Gbps，远超单台机器的网卡容量，更不可能跨数据中心传输。

核心矛盾

PD解耦的愿景是：Prefill跑在计算密集型加速器上，Decode跑在内存带宽密集型加速器上。但由于KV Cache太大，两者被迫锁死在同一个高带宽RDMA网络域内（通常是单个数据中心），无法真正实现异构部署和资源弹性扩展。

混合注意力架构：改变游戏规则的新变量

近期的混合注意力模型（Kimi Linear、MiMo-V2-Flash、Qwen3.5-397B、Ring-2.5-1T）将少量全注意力层与大量线性复杂度层交错排列。这带来了KV Cache的数量级下降：

模型	注意力类型	A:B 比例	参数量
Kimi Linear	KDA + MLA	3:1	48B
MiMo-V2-Flash	SWA + GQA	5:1	309B
Qwen3.5-397B	GDN + GQA	3:1	397B
Ring-2.5-1T	Lightning + MLA	7:1	1T

以32K tokens为例，MiMo-V2-Flash的KV吞吐仅4.66 Gbps，而Dense模型MiniMax-M2.5高达59.93 Gbps——13倍的差距。

挑战：KV Cache变小 alone 不够

论文尖锐地指出：仅凭混合架构减少了KV Cache，就天真地把所有Prefill外部化，仍然会在生产环境中失败。原因有四个：

负载突发 (Bursty)

真实推理流量不是平稳的，突发请求会导致队列积压和带宽瞬时拥塞。

请求长度高度偏斜

大部分请求很短，少数请求极长。对所有请求一视同仁地做跨集群传输是低效的。

Prefix Cache 分布不均

缓存命中率在不同集群间不均衡，导致部分请求需要重新计算大量KV。

跨集群带宽波动

数据中心之间的网络带宽不是恒定的，会随时间和共享流量变化。

PrfaaS 架构设计

现状：紧耦合单集群

Prefill节点

RDMA高带宽

Decode节点

KV Store共享

问题：KV Cache太大，必须锁死在同一RDMA域内

PrfaaS：跨集群解耦

PrfaaS集群计算密集 · 长上下文Prefill

以太网

KV Cache传输

本地PD集群带宽密集 · Decode

优势：选择性卸载 + 智能调度，仅需13%以太网带宽

三大子系统

计算子系统 (Compute)

包含两类集群：PrfaaS集群（专用高吞吐计算加速器，处理长上下文Prefill）和 本地PD集群（常规PD解耦部署，处理短请求Prefill和全部Decode）。两类集群使用同质硬件（便于运维），但可根据负载独立扩缩容。

网络子系统 (Network)

双层网络：集群内使用RDMA（低延迟集体通信和PD KV传输），集群间使用商用以太网/VPC Peering（跨数据中心KV Cache传输）。关键洞察：混合模型的KV吞吐已降至现代数据中心以太网可承载的范围。

存储子系统 (Storage)

每个集群内构建分布式混合前缀缓存池（Hybrid Prefix Cache Pool）。这是PrfaaS的核心创新之一：Linear Attention的recurrent states和Full Attention的KV Cache被统一管理在统一块池中，支持跨请求复用和跨集群传输。

四大核心技术

基于长度的选择性路由 (Length-based Threshold Routing)

PrfaaS不是将所有Prefill都外部化，而是设定一个路由阈值 t。只有当请求的增量未缓存长度 l > t 时，才会被路由到PrfaaS集群。短请求留在本地PD集群处理。

# 路由决策逻辑
if incremental_uncached_length > t:
route_to_prfaas_cluster()   # 长请求 → 计算集群
else:
route_to_local_pd()          # 短请求 → 本地PD

这样做的原因是：短请求的Prefill本身很快，跨集群传输KV Cache的 overhead 反而得不偿失。只有长请求才能从PrfaaS集群的高计算吞吐中获益。

混合前缀缓存池 (Hybrid Prefix Cache Pool)

混合模型的KV Cache有两种形态：Linear Attention的recurrent states（固定大小，与序列长度无关）和 Full Attention的传统KV Cache（随长度增长）。PrfaaS在vLLM的hybrid KV Cache Manager基础上，构建了统一的块池管理系统。

Prefix-Cache Blocks

可复用、块对齐、用于前缀匹配命中

Transfer-Cache Blocks

跨集群传输用，传输完成后丢弃

Free Blocks

空闲块，动态分配给上述两类

双时间尺度调度 (Dual-Timescale Scheduling)

调度器在两个时间尺度上运作，分别应对不同类型的系统动态：

短期带宽与Cache感知路由

持续监控PrfaaS集群的出口利用率。当接近带宽上限时，动态调整路由阈值t，将部分请求回退到本地PD集群。同时考虑prefix cache affinity：如果请求在某个集群有缓存命中，优先路由到该集群。

长期流量驱动的分配重优化

在更长的时间尺度上（分钟级），监控各阶段的队列深度，识别系统瓶颈。如果Prefill成为瓶颈，将PD集群中的部分节点从Decode角色转换为Prefill角色（或反之），并重新优化路由阈值t。

吞吐量最优配置模型 (Throughput-Optimal Configuration)

论文构建了一个解析吞吐量模型，将系统建模为三级流水线：PrfaaS Prefill → PD-P Prefill → PD-D Decode。系统整体吞吐量由最慢的瓶颈阶段决定。

两个关键优化变量通过二维网格搜索求解：

1. 路由阈值 t：决定多少比例请求走PrfaaS路径（影响p, l_long, l_short）
2. PD集群内Prefill/Decode配比 N_p/N_d：决定本地资源分配

实验结果：1T参数混合模型案例研究

论文使用了一个内部1T参数的混合架构模型（遵循Kimi Linear架构，3:1的KDA:MLA层比例），在真实的异构部署环境下进行了评估。

+54%

吞吐量提升

vs 同构PD基线

-64%

P90 TTFT降低

长上下文首token延迟

+15%

同等成本吞吐增益

成本不变的情况下

三种部署方案对比

指标	PrfaaS-PD	同构PD	朴素异构PD
路由阈值 t	19.4K	—	—
实例配比 (PrfaaS/PD-P/PD-D)	4 / 3 / 5	— / 9 / 3	4 / — / 8
Mean / P90 TTFT (s)	2.22 / 3.51	4.44 / 9.73	1.74 / 3.51
各阶段吞吐 (req/s)	1.61 / 1.64 / 3.91	— / 2.11 / 2.35	2.45 / — / 6.25
系统总吞吐 Λ_max	3.24	2.11	2.45
相对基线倍数	1.54×	1.00×	1.16×

关键发现：朴素异构PD为什么不够好？

朴素异构PD（无调度优化，所有Prefill走H200、所有Decode走H20）虽然TTFT低，但吞吐量仅比同构PD高16%，远低于PrfaaS的54%。根本原因在于：它没有选择性卸载，导致Prefill和Decode之间的吞吐严重失衡，大量Decode容量被闲置。PrfaaS通过智能调度和路由阈值，让两个阶段的吞吐同时接近饱和。

跨数据中心带宽消耗

13 Gbps

PrfaaS出口带宽

100 Gbps

可用链路容量

仅占用 13%

在100 Gbps的跨数据中心链路上，PrfaaS仅消耗约13 Gbps，留有充足余量。这意味着即使在带宽波动或突发负载下，系统也能稳定运行。

讨论与启示

KV Cache友好的模型架构

MLA、Sliding Window Attention、Linear Attention等技术已证明可以在不牺牲模型能力的前提下大幅减少KV Cache。未来的模型协同设计（model-system co-design）将同时优化FLOPs和KV传输量。

KV Cache压缩与复用

H2O、KIVI、CacheGen等方法通过量化或重要性驱逐进一步压缩KV Cache。CacheBlend和FusionRAG通过跨请求融合复用KV。这些技术与PrfaaS是互补的，可以进一步降低跨数据中心带宽需求。

阶段专用推理硬件

NVIDIA Rubin CPX专门针对Prefill吞吐优化，而LPU和Taalas HC1强调Decode带宽。PrfaaS的跨数据中心架构天然契合这一趋势：不同的芯片可以部署在不同的数据中心，各自发挥所长。

从"能不能"到"值不值得"

论文的核心洞察是：混合架构让跨数据中心KV传输从"不可能"变成了"可能"，但PrfaaS将其进一步变成了"值得做"。关键在于选择性——不是全有或全无，而是让系统根据实时条件动态决策。

总结

Prefill-as-a-Service 代表了LLM推理架构的下一个进化方向。它证明了：

在混合注意力模型时代，KV Cache已经小到可以通过商用以太网跨数据中心传输

仅靠模型架构改进不够，需要模型-系统协同设计：选择性卸载 + 智能调度 + 全局缓存管理

PD解耦的边界从单数据中心RDMA域扩展到跨数据中心以太网，为异构部署和资源弹性打开了新空间

在生产环境中可实现 54% 吞吐提升和 64% 延迟降低，且仅消耗 modest 的跨数据中心带宽