基础设施 4.0 · 优秀 2026-04-16 · 文章

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

MaxText 新增单主机 TPU(v5p-8/v6e-8)上的 Supervised Fine-Tuning(SFT)和 Reinforcement Learning(RL)支持,利用 JAX 和 Tunix 库实现高效后训练。SFT 支持原生 Hugging Face 数据集格式,可直接加载 MaxText 或转换 Hugging Face checkpoint(如 Gemma 3)。RL 支持 GRPO(无需独立 value function,适合单 TPU)和 GSPO(序列级优势,训练更稳定,提升 GSM8K)。通过 vLLM 实现训练循环中高吞吐量推理,一条命令即可启动训练。

打开原文回到归档

MaxText 新增单主机 TPU(v5p-8/v6e-8)上的 Supervised Fine-Tuning(SFT)和 Reinforcement Learning(RL)支持,利用 JAX 和 Tunix 库实现高效后训练。SFT 支持原生 Hugging Face 数据集格式,可直接加载 MaxText 或转换 Hugging Face checkpoint(如 Gemma 3)。RL 支持 GRPO(无需独立 value function,适合单 TPU)和 GSPO(序列级优势,训练更稳定,提升 GSM8K)。通过 vLLM 实现训练循环中高吞吐量推理,一条命令即可启动训练。