DeepSeek 的 10 万亿美元宏伟战略

你有没有想过，DeepSeek 到底打算怎么赚钱，而且是赚大钱？

他们没有像智谱（GLM）、月之暗面（MoonShot）和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日，他们甚至连一个评测框架（Harness，用于测试和评估模型性能的基准测试工具）都没有（虽然最近听说他们开始招人做了）。而且，DeepSeek 还长期致力于开源，乐此不疲地分享自己的"独家秘方"。这难道是疯了吗？还是纯粹在烧钱？

不，在我看来，恰恰相反！

重新审视 DeepSeek 的"英雄之旅"

DeepSeek 总是逆风而行，他们不屑于去卷那种"比别人好一点点"的微调模型，也不急着去卖当下的应用（比如各种编程套餐）。他们在 2025 年 1 月 27 日发过一条疯传的推文，谈到了他们所看到的景象，而现在的剧情正变得越来越精彩。

当大家都在死磕稠密模型（Dense Models，所有参数都参与计算的传统大模型结构）时，DeepSeek 却迎难而上，选择了极难训练的混合专家模型（MoE, Mixture of Experts）。
他们从"第一性原理"（First Principles）出发，发明了全新的 GRPO 算法，取代了在强化学习（RL, Reinforcement Learning）中虽然占据统治地位、但实现成本极高的 PPO 算法。
他们摸索出了基于验证奖励的强化学习（RLVR, Reinforcement Learning from Verified Rewards），并将其作为提升模型推理能力的杀手锏。
他们通过"多 Token 预测"（MTP, Multi-Token Prediction）提出了一种绝妙的投机解码（Speculative Decoding，一种通过预判后续单词来加速大模型生成速度的技术）策略，同时还让训练信号变得更加密集。
他们完美打造了"零气泡"（Zero-Bubble）流水线并行技术，把有限的 GPU 资源压榨到了极致。
他们开源了专家负载均衡器（Expert Load Balancer），让所有人都能轻松部署混合专家模型。
他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术，极大地缩减了 KV 缓存（KV Cache，大模型推理时用于存储历史对话记忆的显存空间）的需求，让计算需求在面对无限拉长的上下文时几乎保持恒定。
他们发明了 Engram（印迹模块），实现了用内存换算力的神奇操作。
他们发明了 mHC（修正超连接），解决了模型体量暴增时的训练稳定性难题。

DeepSeek 的终极宿命是：他们的格局根本不是卖什么编程订阅，而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈，并以此顺理成章地让自己斩获 1 万亿美元的市值。

KV 缓存账：DeepSeek 的极致压缩

来看看 KV 缓存的数学题。以 100 万（1M）上下文长度为例进行计算，假设 KV 精度为 8 位（8-bit），索引器精度为 16 位（16-bit）：

DeepSeek V4 居然只需要 5.48 GB 的高带宽内存（HBM, High Bandwidth Memory，一种常用于顶尖 AI 显卡的高速显存）。
GLM5 需要 60 GB 的 HBM。
Qwen3-235B-A22B 则需要高达 89 GB 的显存！

这是在以下前提下： 1. DeepSeek 是一个拥有 1.6 万亿（1.6T）参数的巨无霸模型。 2. GLM5 大约是 7000 亿（700B）参数，而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术。 3. Qwen3-235B-A22B 只有 2350 亿参数，使用的是相对传统的 GQA（分组查询注意力机制）。

DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳，将让那些需要处理超长任务的长程 AI 智能体（Long-horizon Agents）成本低到难以置信，从而彻底解锁下一代崭新的应用场景。

疯狂背后的精密章法

能够在完全不牺牲模型质量的前提下，把 KV 缓存压缩得如此之小，正是他们敢把长时缓存（Long-held Cache）价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%，而且他们还能帮你免费保留好几个小时！

对于长程任务来说，由于缓存体量极小，将其"转存"（Offloading）到固态硬盘（SSD）并在需要时重新加载，就变得极为划算。这就大大降低了对 HBM 的依赖。HBM 目前全球严重短缺，而且从中国 AI 硬件产业的角度来看，这也是制造难度极高的核心痛点。

谁是这场"KV 缓存压缩战"的直接受益者？

闪存技术（NAND）让 DeepSeek 能够直接读取缓存，从而避免了每次都重新计算 KV 的巨大算力浪费。反过来，DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储（YMTC）受益，也让整个产业链所有玩家跟着大赚。

低功耗内存（LPDDR）同样蕴藏着巨大的潜力，可以用作存放模型权重（Weights）的"大后方"，并在需要时源源不断地"流式传输"到 HBM 中，从而进一步减轻 HBM 的容量压力。

盘点 DeepSeek 的一盘大棋

纵观这些令人眼花缭乱的创新和他们做出的种种抉择（至今不做多模态、不做语音模型，至于视频生成？那是什么东西？），DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋，目的是亲手扶持起一套独立于西方之外的"备选硬件生态"。

这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军，更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后，原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成"够用、好用"的切实选项。

所有的蛛丝马迹都对上了： 1. 在 DeepSeek V2 中引入混合专家模型（MoE）和 MLA：MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗；而多头潜在注意力机制（MLA, Multi-head Latent Attention）更是把 KV 缓存直接砍掉了 90%，使得将缓存转存到 SSD 变得极为高效。 2. 正是凭借这些绝活，他们后来才能仅仅用 2048 张被阉割过的 H800 GPU，就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。