据 The Information 报道,Anthropic 正在与英国 SRAM 基 AI 芯片初创公司 Fractile 进行早期洽谈,计划在 2027 年 Fractile 产品上市后采购其推理芯片。随着 Anthropic 销售额爆发式增长,现有服务器供应(来自 Google、Amazon、Nvidia)已面临压力。此举反映了 AI 公司正在积极多元化芯片供应链,以应对日益增长的推理算力需求。Fractile 的 SRAM 基方案代表了一种不同于传统 GPU 的推理加速路径。
基础设施
推理、RAG、微调、评测、多模态、芯片和端侧部署。
三星电子 Q1 营业利润 57.2 万亿韩元(约 386 亿美元),创历史新高,半导体部门贡献 53.7 万亿韩元,利润率超 70%,超过英伟达和台积电同期。三星已签多年期约束性合同锁定产能,警告 2027 年存储芯片供需缺口将比 2026 年更大。AI 数据中心对 HBM 的需求是核心驱动力。
华为预计 2026 年 AI 芯片营收约 120 亿美元,同比增长 60%。下一代昇腾 950PR 已进入量产,DeepSeek V4 发布后字节跳动、腾讯、阿里加速抢购。华为计划今年出货约 75 万颗 950PR。黄仁勋此前警告:如果 DeepSeek 新模型率先在华为芯片上全面适配,对美国在全球 AI 领域的战略地位将是灾难性打击。
Google 展示 LiteRT 在生产环境中的 NPU 加速案例:Google Meet 通过 NPU 部署了比此前大 25 倍的超高清分割模型,同时保持稳定功耗;Epic Games 在 Android 上实现实时 MetaHuman 面部动画(30 FPS);Argmax Pro SDK 实现顶级实时语音识别,NPU 相比 GPU 提速 2 倍以上且显著省电。Google AI Edge Gallery App 现已支持 NPU 基准测试,覆盖 Gemma 等模型。LiteRT 还扩展到工业边缘(Qualcomm Dragonwing IQ8)和 AI PC(Intel Core Ultra)。
ISSCC 2026 展示的 ARIES 架构代表了 AI 芯片从算力怪兽向有脑子的行动派的进化路线。ARIES 通过 RISC-V CPU 集成(调度控制前额叶)+ 280MB 大容量 SRAM + CIM 存内计算,实现 PD/AF 融合方案(拒绝 NVIDIA/Groq 的物理分离路线),以 14nm 工艺在能效比上超越 4nm GPU。其三引擎 NPU Core(TCE/TME/VCE)+ 相似性感知 TCAM + LUT 非均匀量化,构成 Agent 时代芯片的差异化竞争力。
"Philosophers warn us not to be satisfied with mere learning, but to add practice and then training." | Revue StoicallyTyped Newsletter - Hey happy Monday!I'm on vacation! I have some time before I start my new job and am taking advantage of all this free time to visit f "Philosophers warn us not to be satisfied with mere learning, but to add pract...
Vitalik Buterin 分享其本地私有 LLM 使用方案。隐私安全目标:防止远程模型获取隐私数据、防止 LLM 越狱攻击、防止后门和软件漏洞。硬件测试:NVIDIA 5090 (90 tok/s)、AMD 128GB 统一内存 (51 tok/s)、DGX Spark (60 tok/s),推荐 5090 或 AMD 方案。软件栈:NixOS + llama-server(替代 Ollama,因能更好利用 GPU)+ llama-swap。Agent 工具方面讨论了 OpenClaw 的安全问题,强调沙箱隔离的重要性。附带 ComfyUI 本地图像/视频生成测试。
V 神分享的本地大模型环境配置博客。从硬件选型开始,详细讨论如何构建一套满足隐私、安全、离线要求的 Local LLM 环境。特别值得注意的细节:为了减少飞机上离线情况下的模型幻觉,他把 1GB 维基百科内容都存了下来方便模型自我核实。同时也考虑了预算有限朋友的硬件推荐方案。
Anthropic工程团队量化了Agent编程评测中的基础设施噪声问题。发现即使在相同环境下重复运行相同的Agent评测,结果也会因网络延迟、API负载、容器调度等因素产生显著波动。这对SWE-Bench、Terminal-Bench等评测的可靠性提出了挑战。提出了减少噪声的方法论建议。
2026 年 3 月 10 日 作者 黄仁勋 AI 是塑造当今世界的强大力量之一。它并非仅仅是一款巧妙的应用程序,也不是单一的模型,而是如同电力和互联网一样必不可少的基础设施。 AI 依托真实的硬件、能源和经济体系运行。它可以将原材料大规模地转化为智能。每家公司都将应用 AI, 每个国家/地区都将发展 AI。 要理解 AI 为何以这种方式发展,我们需要从基本原理进行推理,并了解计算领域发生了哪些根本性变化。
Google 宣布 LiteRT(TensorFlow Lite 的演进版)成为端侧 AI 的通用框架。相比 TFLite,LiteRT 提供 1.4x GPU 性能提升、新增 NPU 加速支持、统一跨平台工作流(Android/iOS/macOS/Windows/Linux/Web),并通过 ML Drift 引擎支持 OpenCL/OpenGL/Metal/WebGPU。NPU 方面已与 MediaTek 和 Qualcomm 完成生产级集成,速度最高可达 CPU 的 100 倍、GPU 的 10 倍。同时支持 PyTorch/JAX 模型转换和 Gemma 系列模型的高效部署。
2026 AI First 系列(三):在被替代之前变得有价值——新经济下的生存法则 第一件事:你在做reinforcement learning from human feedback(RLHF)。每次你 第一件事:你在做reinforcement learning from human feedback(RLHF)。每次你修正AI的输出,每次你选择一个答案而不是另一个,你都在教它什么是好的、什么是不好的。 第二件事:你在数字化你的直觉。那些你"凭感觉"做出的判断,那些你"基于经验"的决策,正在被转化为数据点。AI在学习你的思维模式。
基于 Chip&Cheese PPT 解读高通第三代 Oryon 核心微架构。3 cluster 18 核最高 5GHz,共享 L2 16MB/cluster,9宽 decode/retire,ROB 650+。L1-Miss-L2-Hit 21 cycle,96KB DCache。L2 TLB 标称 8K entry(实测约 1.5K-2K)。前代的渐进优化。
English The content of the article about GPU工作原理... 中文 GPU到底是如何工作的?这篇AI Infra入门全部告诉你 腾讯技术工程的文章深入浅出地介绍了GPU的工作原理。文章从硬件架构到软件层面,全面解析了GPU在AI计算中的核心作用。 主要内容: GPU的硬件架构和计算单元 并行计算的基本原理 在AI训练和推理中的应用 主要厂商和技术发展 对于想了解AI基础设施的人来说,这是一篇非常好的入门文章。
AI编译器的根本性权衡:既要通过抽象底层细节来实现易用性和可扩展性,但现代生成式AI工作负载又需要可编程性和硬件控制来实现极致性能。
1866 年,西门子的一位工程师发明了人类第一台直流发电机。 40 年后,通用电气在 1906 年开始量产真正让电灯普及的第一代白炽灯泡。 在这两者之间的半个世纪里,人类世界依然黑暗,电气的技术革命好像没有发生。 但,这只是因为我们身处后世,才能如此轻描淡写地将这 40 年一笔带过。对于当时的人们来说,电气技术的发展,是他们眼皮底下一天天展开的:第一条电报线路的铺设,第一个电话的接通,第一辆电车的开动,每一次技术的进步,都在真切地改变着他们的生活,只是它没有快到让当时的每个人都在一个时间点集体惊呼"啊,电气革命终于来了!"
吴恩达:从 Agent 到 Agentic Workflow ,AI 的未来何去何从? 作者:AI技能 原文链接: 公众号: AI技能 发布时间: 1970-01-01 08:33:44 原文链接: _关注 AI 技能,开启智能生活!___ 摘要 本文《AI 的未来何去何从?关于具有代理能力的系统》深入探讨了由 Andrew Ng 提出的具有代理能力的系统概念,强调这种系统通过迭代、自我改进的过程超越传统 AI 方法。 文章概述了具有代理能力系统的关键组成部分,如反思、使用工具、规划和多代理协作,并提供了创建用于生成 Medium 帖子想法的 AI 代理的逐步指南。该过程涉及设置代理类、制定详细的反应提示、创建工具/动作功能,并通过所有动作自动化代理,展示了 AI 的思考、规划和执行任务的潜力,无需人为干预。...
查看浏览器Browsers的内核版本, 可以用 navigator.userAgent 在浏览器控制台输入:navigator.userAgent 几乎所有主要浏览器都支持 navigator.use
受社群里 @damo 老板的启发,哥飞决定从今天开始一个新栏目,不定期点评一些网站,说说他们有哪些做得好的地方,有哪些还值得改进的地方。
70款ChatGPT插件评测:惊艳的开发过程与宏大的商业化愿景 - 知乎 TL;DR: 我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome,AppStore等平台的代码开发范式,开发者仅使用自然语言就可以开发ChatGPT插件,并由GPT模型自行决定在使用过程中是否调用插件。约八成插件… Shimmer: Nutrition Coach TL;DR: 我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome,AppStore等平台的代码开发范式,开发者仅使用自然语言就可以开发ChatGPT插件,并由GPT模型自行决定在使用过程中是否调用插件。约八成插件集中于购物、餐饮、旅行、住房和求职场景,其余分布在教育、财经咨讯、内容社区和编程技术场景...
ChatGPT的火爆出圈,让大家对NLP语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 本文处于初稿状态,可能存在很多错误,如果你有不同的看法,欢迎不吝赐教,先行感谢! ChatGPT的火爆出圈,让大家对自然语言处理(Natural Language Processing)语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 想必很多人对ChatGPT涌现出的多领域能...
最近ChatGPT可以说是火遍了全世界,作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型,他的核心在于能够理解人类的自然语言,并使用贴近人类语言风格的方式来进行回复。模型开放使用以来,在人工智能领域引起了巨大的轰动,也成功火出了技术圈。从数据上看,ChatGPT用户数在5天内就达到了100万,2个月就达到了1亿;另外,在很多非人工智能领域,已经有机构在尝试用ChatGPT去做一些智能生成的事。…
GPT-4 重磅发布,有哪些升级和变化? 作者:qizailiu,腾讯 IEG 算法研究员 > 昨天 OpenAI 发布最新里程碑 AI 语言模型 GPT-4,GPT-4 是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。 本文主要参考 OpenAI 关于 GPT4 的官方 Blog,目前各公众号关于 GPT4 的内容基本来自官方 Blog、技术报告和官方视频内容。相关内容传送门: 官方 ChatGPT Plus 体验地址:<
每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。 还是有很多读者对于ChatGPT充满期待(幻想?梦想),今天给大家分享技术层… 每一代GPT模型的参数量都爆炸式增长,堪称"越大越好"。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。 还是有很多读者对于ChatGPT充满期待(幻想?梦想),今天给大家分享技术层面的拆解,读完之后是否是会理性一点呢?enjoy~ 文末推荐几篇直接采访ChatGPT创始人视角的文章,共赏enjoy~ 去年1...
Fragment 是 Android 中历史十分悠久的一个组件,在 Android 3.0 (API 级别 11)的时候推出,时至今日已成为 Android 开发中最常用的组件之一。在一开始的时候,引入 Fragment 的目的是为了在大屏
本文选自付费邮件通讯「iPad Power User」,这是一份聚焦 iPad、iPadOS 与个人生产力的邮件通讯产品,通过不断探索与生活、工作息息相关的数字工具与方法论,为订阅读者提供中文互联网领域最优质的数字工具使用技巧、应用(服务)推荐以及数字化思考,欢迎试读、订阅。