UCSD 研究团队在 Google TPU 上实现 DFlash(块扩散推测解码),将 LLM 推理速度平均提升 3.13 倍,峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token,突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速,代码任务(mbpp)从 9.81ms/token 降至 3.48ms/token。关键发现:在高端 TPU 上,验证 1024 token 与 16 token 成本几乎相同,瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。
基础设施
4.0 · 优秀
Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculati...
UCSD 研究团队在 Google TPU 上实现 DFlash(块扩散推测解码),将 LLM 推理速度平均提升 3.13 倍,峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token,突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速,代码任务(mbpp)从 9.81ms/token 降至 3.48ms/token。关键发现:在高端 TPU 上,验证 1024 token 与 16 token 成本几乎相同,瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。