基础设施 4.0 · 优秀 2026-05-04 · 文章

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculati...

UCSD 研究团队在 Google TPU 上实现 DFlash（块扩散推测解码），将 LLM 推理速度平均提升 3.13 倍，峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token，突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速，代码任务（mbpp）从 9.81ms/token 降至 3.48ms/token。关键发现：在高端 TPU 上，验证 1024 token 与 16 token 成本几乎相同，瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。

打开原文回到归档

继续阅读

Models 4.0 · 优秀

KV Cache 深度解析：为什么 LLM 第一个 Token 最慢

从注意力机制原理出发，详解 KV Cache 的工作原理与工程权衡。自回归生成中 Token 1-49 的 K/V 每次都重算是 O(n^2) 浪费；KV Cache 把历史 K/V 只算一次并缓存，新 Token 只追加自己的 K/V，实现约 5x 提速；代价是显存占用，context window 翻倍意味着单请求 cache 翻倍。Prefill 阶段（首个 Token）最贵，因为要一次性算完所有历史 K/V，这就是 TTFT 瓶颈的来源。GQA/MQA 通过共享 K/V head 显著降内存，是大规模服务必用方案。

2026-04-16 · 文章

Infra 4.0 · 优秀

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

MaxText 新增单主机 TPU（v5p-8/v6e-8）上的 Supervised Fine-Tuning（SFT）和 Reinforcement Learning（RL）支持，利用 JAX 和 Tunix 库实现高效后训练。SFT 支持原生 Hugging Face 数据集格式，可直接加载 MaxText 或转换 Hugging Face checkpoint（如 Gemma 3）。RL 支持 GRPO（无需独立 value function，适合单 TPU）和 GSPO（序列级优势，训练更稳定，提升 GSM8K）。通过 vLLM 实现训练循环中高吞吐量推理，一条命令即可启动训练。

2026-04-16 · 文章 · Google

Infra 4.0 · 优秀

GPU到底是如何工作的？这篇AI Infra入门全部告诉你

English The content of the article about GPU工作原理... 中文 GPU到底是如何工作的？这篇AI Infra入门全部告诉你腾讯技术工程的文章深入浅出地介绍了GPU的工作原理。文章从硬件架构到软件层面，全面解析了GPU在AI计算中的核心作用。主要内容： GPU的硬件架构和计算单元并行计算的基本原理在AI训练和推理中的应用主要厂商和技术发展对于想了解AI基础设施的人来说，这是一篇非常好的入门文章。

2025-07-08 · 文章 · binnnliu

Business 4.0 · 优秀

两小时激辩：黄仁勋为什么不怕 TPU、不怕华为、不怕出口管制？

黄仁勋接受 Dwarkesh Patel 两小时专访，系统阐述 Nvidia 的经营哲学与 AI 基础设施战略。核心观点：Nvidia 的护城河不是技术锁定，而是全球数亿 GPU 装机量与跨云平台的生态优势；Anthropic 使用 TPU 是早年 Nvidia 资金不足导致的「特例」而非趋势；出口管制会加速中国芯片自主化，美国将丢失全球第二大科技市场；收购 Groq 源于推理市场进入「分层定价」时代。全文数据密集，涵盖 CUDA 生态、供应链布局、Blackwell 架构 50 倍能效提升、对华政策博弈等关键议题。

2026-04-18 · 文章