基础设施 4.0 · 优秀 2026-05-04 · 文章

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculati...

UCSD 研究团队在 Google TPU 上实现 DFlash(块扩散推测解码),将 LLM 推理速度平均提升 3.13 倍,峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token,突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速,代码任务(mbpp)从 9.81ms/token 降至 3.48ms/token。关键发现:在高端 TPU 上,验证 1024 token 与 16 token 成本几乎相同,瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。

打开原文回到归档

UCSD 研究团队在 Google TPU 上实现 DFlash(块扩散推测解码),将 LLM 推理速度平均提升 3.13 倍,峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token,突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速,代码任务(mbpp)从 9.81ms/token 降至 3.48ms/token。关键发现:在高端 TPU 上,验证 1024 token 与 16 token 成本几乎相同,瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。