基础设施 4.0 · 优秀 2026-04-29 · 文章

Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket

Google Cloud 将 Rapid Storage(基于 Colossus 存储架构)通过 gcsfs(fsspec 接口)直接集成到 PyTorch 生态,实现 AI 训练数据加载瓶颈突破。Rapid Bucket 使用双向 gRPC 流替代传统 REST API,配合区域共置和直接路径连接,实现 15+ TiB/s 聚合吞吐量和显著延迟降低。基准测试显示读取吞吐量提升 4.8 倍,写入提升 2.8 倍,100 步训练总时间减少 23%。用户只需将 bucket 切换为 Rapid Bucket 即可零代码迁移。

打开原文回到归档

Google Cloud 将 Rapid Storage(基于 Colossus 存储架构)通过 gcsfs(fsspec 接口)直接集成到 PyTorch 生态,实现 AI 训练数据加载瓶颈突破。Rapid Bucket 使用双向 gRPC 流替代传统 REST API,配合区域共置和直接路径连接,实现 15+ TiB/s 聚合吞吐量和显著延迟降低。基准测试显示读取吞吐量提升 4.8 倍,写入提升 2.8 倍,100 步训练总时间减少 23%。用户只需将 bucket 切换为 Rapid Bucket 即可零代码迁移。