产品与商业 4.0 · 优秀 2026-05-23 · 文章

DeepSeek 的 10 万亿美元宏伟战略

分析 DeepSeek 不卖编程订阅不做评测框架长期开源的战略意图核心论点:DeepSeek 目标是撬动价值 10 万亿美元的中国 AI 硬件生态圈,顺便让自己获得 1 万亿美元市值通过极致的 KV 缓存压缩技术(100 万上下文仅需 5.48GB HBM,而 GLM5 需要 60GB),DeepSeek 正建立以 SSD + HBM 混合架构为核心的新型计算范式

打开原文回到归档

你有没有想过,DeepSeek 到底打算怎么赚钱,而且是赚大钱?

他们没有像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日,他们甚至连一个评测框架(Harness,用于测试和评估模型性能的基准测试工具)都没有(虽然最近听说他们开始招人做了)。而且,DeepSeek 还长期致力于开源,乐此不疲地分享自己的"独家秘方"。这难道是疯了吗?还是纯粹在烧钱?

不,在我看来,恰恰相反!

重新审视 DeepSeek 的"英雄之旅"

DeepSeek 总是逆风而行,他们不屑于去卷那种"比别人好一点点"的微调模型,也不急着去卖当下的应用(比如各种编程套餐)。他们在 2025 年 1 月 27 日发过一条疯传的推文,谈到了他们所看到的景象,而现在的剧情正变得越来越精彩。

  • 当大家都在死磕稠密模型(Dense Models,所有参数都参与计算的传统大模型结构)时,DeepSeek 却迎难而上,选择了极难训练的混合专家模型(MoE, Mixture of Experts)。
  • 他们从"第一性原理"(First Principles)出发,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中虽然占据统治地位、但实现成本极高的 PPO 算法。
  • 他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。
  • 他们通过"多 Token 预测"(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。
  • 他们完美打造了"零气泡"(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。
  • 他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。
  • 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。
  • 他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。
  • 他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。

DeepSeek 的终极宿命是:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。

KV 缓存账:DeepSeek 的极致压缩

来看看 KV 缓存的数学题。以 100 万(1M)上下文长度为例进行计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit):

  • DeepSeek V4 居然只需要 5.48 GB 的高带宽内存(HBM, High Bandwidth Memory,一种常用于顶尖 AI 显卡的高速显存)。
  • GLM5 需要 60 GB 的 HBM。
  • Qwen3-235B-A22B 则需要高达 89 GB 的显存!

这是在以下前提下: 1. DeepSeek 是一个拥有 1.6 万亿(1.6T)参数的巨无霸模型。 2. GLM5 大约是 7000 亿(700B)参数,而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术。 3. Qwen3-235B-A22B 只有 2350 亿参数,使用的是相对传统的 GQA(分组查询注意力机制)。

DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳,将让那些需要处理超长任务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而彻底解锁下一代崭新的应用场景。

疯狂背后的精密章法

能够在完全不牺牲模型质量的前提下,把 KV 缓存压缩得如此之小,正是他们敢把长时缓存(Long-held Cache)价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%,而且他们还能帮你免费保留好几个小时!

对于长程任务来说,由于缓存体量极小,将其"转存"(Offloading)到固态硬盘(SSD)并在需要时重新加载,就变得极为划算。这就大大降低了对 HBM 的依赖。HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这也是制造难度极高的核心痛点。

谁是这场"KV 缓存压缩战"的直接受益者?

闪存技术(NAND)让 DeepSeek 能够直接读取缓存,从而避免了每次都重新计算 KV 的巨大算力浪费。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储(YMTC)受益,也让整个产业链所有玩家跟着大赚。

低功耗内存(LPDDR)同样蕴藏着巨大的潜力,可以用作存放模型权重(Weights)的"大后方",并在需要时源源不断地"流式传输"到 HBM 中,从而进一步减轻 HBM 的容量压力。

盘点 DeepSeek 的一盘大棋

纵观这些令人眼花缭乱的创新和他们做出的种种抉择(至今不做多模态、不做语音模型,至于视频生成?那是什么东西?),DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋,目的是亲手扶持起一套独立于西方之外的"备选硬件生态"。

这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后,原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成"够用、好用"的切实选项。

所有的蛛丝马迹都对上了: 1. 在 DeepSeek V2 中引入混合专家模型(MoE)和 MLA:MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗;而多头潜在注意力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存直接砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。 2. 正是凭借这些绝活,他们后来才能仅仅用 2048 张被阉割过的 H800 GPU,就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。