基础设施 4.0 · 优秀 2026-04-16 · 文章

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

MaxText 新增单主机 TPU（v5p-8/v6e-8）上的 Supervised Fine-Tuning（SFT）和 Reinforcement Learning（RL）支持，利用 JAX 和 Tunix 库实现高效后训练。SFT 支持原生 Hugging Face 数据集格式，可直接加载 MaxText 或转换 Hugging Face checkpoint（如 Gemma 3）。RL 支持 GRPO（无需独立 value function，适合单 TPU）和 GSPO（序列级优势，训练更稳定，提升 GSM8K）。通过 vLLM 实现训练循环中高吞吐量推理，一条命令即可启动训练。

打开原文回到归档

继续阅读

Infra 4.0 · 优秀

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculati...

UCSD 研究团队在 Google TPU 上实现 DFlash（块扩散推测解码），将 LLM 推理速度平均提升 3.13 倍，峰值接近 6 倍。通过在单次前向传播中并行生成整块候选 token，突破传统自回归草稿的 O(K) 串行瓶颈。DFlash 在 TPU v5p 上相比 EAGLE-3 实现了 2.29 倍端到端加速，代码任务（mbpp）从 9.81ms/token 降至 3.48ms/token。关键发现：在高端 TPU 上，验证 1024 token 与 16 token 成本几乎相同，瓶颈从验证成本转为草稿质量。已开源集成到 vLLM TPU inference 仓库。

2026-05-04 · 文章 · Yarong Mu, Lihao Ran (Google Cloud)

Models 5.0 · 必读

你不知道的大模型训练：原理、路径与新实践

Tw93 继 Claude Code 和 Agent 深度分析后的第三篇长文，系统梳理大模型训练全链路。核心判断：2026 年拉开差距的不再是预训练本身，而是后训练、评测、奖励、Agent 训练、蒸馏。详细拆解了预训练（数据配方、过训练、tokenizer 设计）、后训练多阶段流水线（冷启动 SFT → GRPO 强化学习 → 拒绝采样微调 → 对齐 RL）、评测-Grader-Reward 反馈回路、推理模型（o1/DeepSeek-R1）、Agent 训练（Kimi K2.5 PARL、Cursor Composer 2、Chroma Context-1）、Meta-Harness（只改 harness code 就能拉出 6x 性能差距）。含大量配图和 14 篇参考文献。

2026-04-05 · X · Tw93

Business 4.0 · 优秀

两小时激辩：黄仁勋为什么不怕 TPU、不怕华为、不怕出口管制？

黄仁勋接受 Dwarkesh Patel 两小时专访，系统阐述 Nvidia 的经营哲学与 AI 基础设施战略。核心观点：Nvidia 的护城河不是技术锁定，而是全球数亿 GPU 装机量与跨云平台的生态优势；Anthropic 使用 TPU 是早年 Nvidia 资金不足导致的「特例」而非趋势；出口管制会加速中国芯片自主化，美国将丢失全球第二大科技市场；收购 Groq 源于推理市场进入「分层定价」时代。全文数据密集，涵盖 CUDA 生态、供应链布局、Blackwell 架构 50 倍能效提升、对华政策博弈等关键议题。

2026-04-18 · 文章

Infra 4.0 · 优秀

三星芯片利润暴涨近 50 倍至 53.7 万亿韩元，预警 2027 年供应缺口将进一步扩大

三星电子 Q1 营业利润 57.2 万亿韩元（约 386 亿美元），创历史新高，半导体部门贡献 53.7 万亿韩元，利润率超 70%，超过英伟达和台积电同期。三星已签多年期约束性合同锁定产能，警告 2027 年存储芯片供需缺口将比 2026 年更大。AI 数据中心对 HBM 的需求是核心驱动力。

2026-04-30 · 文章 · Reuters / Bloomberg