抄 Apple Intelligence 作业的思路文章从 LLM 的近况切入，探讨 Apple Intelligen

发布时间: 2024-08-27T08:38:20.000Z

原文链接: https://juejin.cn/post/7407385581079396389

抄 Apple Intelligence 作业的思路

字节跳动\_离青

2024-08-27 4,179 阅读50分钟

已关注

6 月的 WWDC 7 月刷，7 月的构思 8 月写，着实拖延了些时日，希望成稿之日观点尚能构成参考 _(:з」∠)_

字节跳动 Client AI 团队招聘中，业务年均百亿收益，SDK 日均万亿调用，诚邀推荐：

- 社招

- 算法工程师 @北京/杭州/上海

- 平台工程师 @北京/深圳

- 移动工程师 @北京/深圳

- 校招

- 算法工程师 @北京/杭州

- 实习

- 前端工程师 @深圳，限 26 届及以后

0x0 前言

本篇讨论 Apple Intelligence，如果还没有围观 WWDC 24，稍作了解有益代入：

节选 WWDC 24 与 Apple Intelligence 相关的 Sessions

- WWDC 24 Keynote | YT (主会场，Apple Intelligence 压轴，1:04:00 才开始)

- Apple Intelligence in 5 minutes (YT only)

- Apple Intelligence | Privacy (YT only)

- Platforms State of the Union | YT

- Bring your app to Siri | YT

- Bring your app’s core features to users with App Intents | YT

- What’s new in App Intents | YT

- Design App Intents for system experiences | YT

- Bring expression to your app with Genmoji | YT

- Get started with Writing Tools | YT

本篇将延用前作部分观点，探讨可回溯重新思考终端 LLMs 和 Agents，观点如下：

1. LLM 新增的核心能力是多模态理解和生成 内建知识 推理能力 2. 终端场景的 LLM 应用可以没有终端模型，终端 Agent 可以采用云端模型

惯例求砖 & 免砖申明：

未深入剖析技术细节，力争让 RD、PM、DA 们都能看懂，希望能抛砖引玉，启发思考
个人并不从事 LLM 相关工作，算法/工程判断、场景/路径推演与实际不合处，恳请指正
文档基于 24 年中时个人的现状认知和思维推断，有效性和有效期未知，请自主判断

超级省流版：

- 以技术为基石的应用更要对技术诚实，LLM 幻觉和推理能力不足可以采用移交控制/验证和主动治理/约束策略

- 并不是所有 AI 都需要以 AGI 为目标，提升现有产品的核心体验/收益也可以作为投入目标

- 借助 LLM 实现跨 domain 交互在技术上可行，但不同 domain 有不同的商业模式考量

0x1 万象更新

虽然 Apple Intelligence 是本篇主题，但依然想先花点时间梳理 Apple Intelligence 诞生时代的技术背景，在这万象更新之余却又有点儿沉闷的时代。

0x10 Scale Up 与基建竞赛

from Jim Fan

from Maxime Labonne

Scale Up 依然是 2024 年毋庸置疑的主旋律。闭源方向上，Anthropic Claude、Google Gemini 和 OpenAI GPT-4 的旗舰模型一再扩大，在 Benchmark 榜单上争抢头把交椅，却没谁坐得安稳；开源方向上，X 314b Grok-1 先吹响了号角，NVIDIA 迅速跟进 Nemotron 340b 狠狠秀了把肌肉，Meta 又凭借 405b 身躯的 Llama 3.1 挤开了一众豪杰，不甘寂寞的 Mistral 在 Llama 3.1 登场的第二天就放出了 123b 的 Large2 并略有针对地表示 "Large Enough"。

狂欢之余，还需要保持清醒。虽然新闻报道多只津津乐道模型参数规模再创新高，毕竟参数规模最易于公众理解和比较，但 Scaling Law 并不只提升参数规模 —— Llama 3.1 在论文中着重强调了data, scale, and managing complexity，数据、规模和复杂度。露出水面的参数规模之下是一整座冰山。

数据

数据的数量和质量对 pre-training 和 post-training 来说至关重要，以 Llama 为例， Llama 2 使用了 1.8T tokens，Llama 3 则在优化质量的同时，将数据量也提升到了 15T，而根据李沐老师的分享 #1，15T 大概已经是互联网上可以抓取文本数据的上限了，李沐老师的分享 #2 全篇都在聊 training data，感兴趣可以自取。

跟据透露，Llama 3 训练中大量使用了 Llama 2 生产的数据，也即合成数据，这是另一个有意思的命题。Nature 封面文章就质疑了左脚踩右脚螺旋升天的路数，认为放任大模型用自动生成的数据训练自己，在短短几代内 AI 就会陷入模型崩溃。或许 Llama 有应对合成数据的秘辛，但不论有无，似乎区隔数据的来源是一个有备无患的选择。

Join AI 为合成数据背书文章中的数据分类，和从full data到the final data u can get的图示，可以解释采用合成数据的原因以及数据采集工作背后的辛酸：

可见，可得，但不可用的数据的隐私数据
可遇不可求的 Corner Case
可见，可得，但是不免费的采标数据
可见、可得、免费但是数量少的可怜的开源数据

高质量数据是否会耗尽的学术争论还没有结束，不分赛道，工业应用的数据饕餮已然甚嚣尘上，比如媒体买买买的 OpenAI、重金求声的 Meta；也不乏有游走在合法与非法的边缘的事，比如惨遭多轮光顾的 YouTube，以及被大型唱片公司起诉 Udio & Suno。

不过，也不要以为爬虫数据是免费的午餐，例如 Google 就着过 Reddit 和 Quora 的道，在搜索「google cheese not sticking to pizza」的结果里赫然建议「adding 1/8 cup of Elmer's glue」。是 Google 先动的手，自然也只能砸碎钢牙肚里吞了 🐶🐶🐶

规模

Llama 3.1 405B + 15.6T tokens 预训练的开销是 3.8 × 10^25 次浮点运算，足足花了 54 天时间。作为比较，根据 NVIDIA H100 的规格描述，在稀疏运算的加持下，H100 SXM FP8 Tensor Core 也不过能达到 3.9 × 10^15 FLOPs。如果只有一张 H100，就算破天荒实现了 GPU 全周期满负载运行，也需要 300+ 年的时间。运算量与运算能力之间至少足足有 10 个数量级差距，能在时间维度节约多少开销，把迭代速度抬上去，就得看其他维度的堆料和优化了。

万卡集群就是这样成为标配的。相较于传统分布式集群，大模型训练集群对计算、存储、传输的性能压榨更极致，乃至需要专门的供电和散热保障，对拓展性、可靠性的要求也都更严苛，新的设计也随之诞生。字节的 MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs 也相应介绍了在算法设计、算子加速、计算调度、网络传输、容灾容错等方面的优化，按需了解吧。架构的迭代肯定不会止步于此，小扎说 Llama4 训练算力得再乘 10，而马斯克干脆已经备好了 10 万块 H100，十万卡集群 is coming。

Analysis of NVIDIA’s Latest Hardware: B100/B200/GH200/NVL72/SuperPod

集群架构之下，计算和存储硬件也在快速迭代。上图为 fibermall 统计的 NVIDIA GPU 单卡性能，以稠密 FP16 计算性能为标尺，从 2020 年的 A100 到 2024 年的 B200 性能提升约 7 倍，功耗提升约 2.5 倍，提升速度甚至还超越了两年翻一番的黄氏定律。饶是如此，依然有 ASIC 玩家想要分 NVIDIA 的蛋糕，先有 Groq Llama2 70B 刷出 300+ tokens/s 的闪电速度，引得 Yann LeCun 青眼；后有 Etched 梭哈 Transformer 8xSohu Llama 70b 上 500000 tokens/s，如果模型结构基本定型，推理加速硬件恐怕还得有一场血战。出于众所周知的原因，此处还得给昇腾的训练和推理鼓鼓劲。

运行于硬件上的训练和推理同样有大幅优化的空间。以推理为例，无问芯穹与清华、上交联合研究出品的大模型高效推理综述，就将大模型的高效推理划分成关注输入输出的数据层优化、关注模型结构和压缩的模型层优化、关注服务调度和推理引擎优化的系统层优化。

单就模型层中的 Transformer 替代架构，就又能延伸出许多研究 —— Mamba、RWKV、TTT 都试图挑战 Transformer，尝试以更低的计算复杂度，更好地 Scale Up 和泛化；而每一个细分模型结构在论文发布后，又往往会激发出更多的研究和探讨。

复杂性

Llama 3.1 在无 MoE 标准 Transformer 架构、后训练 SFT + 拒绝采样 + DPO 的简化配置下，在 54 天的训练过程中喜提了每 3 小时 1 次故障。小道消息说，其实 Meta 也尝试了 MoE，只是中道崩殂… 密集的故障多数由 GPU 引发，软件错误、网络故障、温度和电压都可能造成故障，Meta 甚至需要应对电力需求超出电网供给的问题。限制故障范围，及时从故障中恢复，非常考验团队的判断和快速应对能力。

关于电力供给问题，硅谷 101 在视频和播客节目中都有深入讨论，修缮电网、保障供应、维持电价无论如何都超出了正常商业公司的经营范畴，或许强大的 AI 背后，还得有强大的国家。

0x11 Scale Down 与价格竞赛

如此累屋重架的体系想必烧钱吧，然而价格竞赛的风却席卷了全球：

日期

模型

版本

输入

输出

降幅

05.06

DeepSeek

DeepSeek - V2

0.001

0.002

N/A

05.11

智谱

GLM3 - Turbo

0.001

80%

05.15

豆包

通用模型 pro-32k

0.0008

N/A

05.21

通义千问

Qwen - Max

0.04

0.12

67%/0%

05.21

通义千问

Qwen - Plus

0.004

0.002

80%/90%

05.21

通义千问

Qwen - Long

0.0005

0.002

N/A

05.21

文心一言

ERNIE - Speed

∞

05.21

文心一言

ERNIE - Lite

∞

05.22

讯飞星火

Spark - Lite

∞

05.22

讯飞星火

Spark3.5 - Max

0.021 ~ 0.03

05.22

腾讯混元

lite

∞

05.22

腾讯混元

standard

0.0045

0.005

55%/45%

05.22

腾讯混元

standard - 256k

0.015

0.06

87.5%/50%

05.22

腾讯混元

pro

0.03

0.1

70%/0%

08.02

谷歌

Gemini Flash

0.0025

[内容过长，已截断]