Infra

基础设施

推理、RAG、微调、评测、多模态、芯片和端侧部署。

28精选条目
01Infra
基础设施 3.0 · 值得看
Anthropic 正在与英国 AI 芯片初创 Fractile 洽谈采购推理芯片

据 The Information 报道,Anthropic 正在与英国 SRAM 基 AI 芯片初创公司 Fractile 进行早期洽谈,计划在 2027 年 Fractile 产品上市后采购其推理芯片。随着 Anthropic 销售额爆发式增长,现有服务器供应(来自 Google、Amazon、Nvidia)已面临压力。此举反映了 AI 公司正在积极多元化芯片供应链,以应对日益增长的推理算力需求。Fractile 的 SRAM 基方案代表了一种不同于传统 GPU 的推理加速路径。

为什么重要Anthropic 买芯片买到还没上市的公司——推理算力饥渴已成 AI 行业最大瓶颈。
2026-05-02 · 文章 · The Information
02Infra
基础设施 4.0 · 优秀
三星芯片利润暴涨近 50 倍至 53.7 万亿韩元,预警 2027 年供应缺口将进一步扩大

三星电子 Q1 营业利润 57.2 万亿韩元(约 386 亿美元),创历史新高,半导体部门贡献 53.7 万亿韩元,利润率超 70%,超过英伟达和台积电同期。三星已签多年期约束性合同锁定产能,警告 2027 年存储芯片供需缺口将比 2026 年更大。AI 数据中心对 HBM 的需求是核心驱动力。

为什么重要AI 对存储芯片的拉动已从预期变成财报数字,2027 年供应继续紧缺
2026-04-30 · 文章 · Reuters / Bloomberg
03Infra
基础设施 4.0 · 优秀
华为昇腾 AI 芯片 2026 年营收预计达 120 亿美元,同比增长 60%

华为预计 2026 年 AI 芯片营收约 120 亿美元,同比增长 60%。下一代昇腾 950PR 已进入量产,DeepSeek V4 发布后字节跳动、腾讯、阿里加速抢购。华为计划今年出货约 75 万颗 950PR。黄仁勋此前警告:如果 DeepSeek 新模型率先在华为芯片上全面适配,对美国在全球 AI 领域的战略地位将是灾难性打击。

为什么重要英伟达在中国高端 AI 市场的空白正在被华为快速填补,国产算力生态规模化拐点已至
2026-04-28 · 文章 · FT / HeyGoTrade
Infra 2026-04-23 · 文章
Building real-world on-device AI with LiteRT and NPU

Google 展示 LiteRT 在生产环境中的 NPU 加速案例:Google Meet 通过 NPU 部署了比此前大 25 倍的超高清分割模型,同时保持稳定功耗;Epic Games 在 Android 上实现实时 MetaHuman 面部动画(30 FPS);Argmax Pro SDK 实现顶级实时语音识别,NPU 相比 GPU 提速 2 倍以上且显著省电。Google AI Edge Gallery App 现已支持 NPU 基准测试,覆盖 Gemma 等模型。LiteRT 还扩展到工业边缘(Qualcomm Dragonwing IQ8)和 AI PC(Intel Core Ultra)。

on-device AILiteRTNPUGoogle MeetEpic GamesArgmax
4.0 · 优秀 开发者
Infra 2026-04-11 · 文章
破局Agent时代:ARIES RISCV+AI架构分析

ISSCC 2026 展示的 ARIES 架构代表了 AI 芯片从算力怪兽向有脑子的行动派的进化路线。ARIES 通过 RISC-V CPU 集成(调度控制前额叶)+ 280MB 大容量 SRAM + CIM 存内计算,实现 PD/AF 融合方案(拒绝 NVIDIA/Groq 的物理分离路线),以 14nm 工艺在能效比上超越 4nm GPU。其三引擎 NPU Core(TCE/TME/VCE)+ 相似性感知 TCAM + LUT 非均匀量化,构成 Agent 时代芯片的差异化竞争力。

risc-vai-chipagent-erain-memory-computingcimaries
4.0 · 优秀 开发者
Infra 2026-04-10 · 文章
"Philosophers warn us not to be satisfied with mere learning, but to add practice and then train...

"Philosophers warn us not to be satisfied with mere learning, but to add practice and then training." | Revue StoicallyTyped Newsletter - Hey happy Monday!I'm on vacation! I have some time before I start my new job and am taking advantage of all this free time to visit f "Philosophers warn us not to be satisfied with mere learning, but to add pract...

Newsletter
3.0 · 值得看 开发者
Infra 2026-04-06 · 文章
My self-sovereign / local / private / secure LLM setup, April 2026

Vitalik Buterin 分享其本地私有 LLM 使用方案。隐私安全目标:防止远程模型获取隐私数据、防止 LLM 越狱攻击、防止后门和软件漏洞。硬件测试:NVIDIA 5090 (90 tok/s)、AMD 128GB 统一内存 (51 tok/s)、DGX Spark (60 tok/s),推荐 5090 或 AMD 方案。软件栈:NixOS + llama-server(替代 Ollama,因能更好利用 GPU)+ llama-swap。Agent 工具方面讨论了 OpenClaw 的安全问题,强调沙箱隔离的重要性。附带 ComfyUI 本地图像/视频生成测试。

local-LLMprivacysecurityVitalikself-sovereignsandbox
4.0 · 优秀 开发者
Infra 2026-04-06 · X
V 神本地 LLM 环境配置

V 神分享的本地大模型环境配置博客。从硬件选型开始,详细讨论如何构建一套满足隐私、安全、离线要求的 Local LLM 环境。特别值得注意的细节:为了减少飞机上离线情况下的模型幻觉,他把 1GB 维基百科内容都存了下来方便模型自我核实。同时也考虑了预算有限朋友的硬件推荐方案。

本地LLMVitalik隐私离线硬件配置
3.0 · 值得看 开发者
Infra 2026-03-11 · 文章
Quantifying infrastructure noise in agentic coding evals

Anthropic工程团队量化了Agent编程评测中的基础设施噪声问题。发现即使在相同环境下重复运行相同的Agent评测,结果也会因网络延迟、API负载、容器调度等因素产生显著波动。这对SWE-Bench、Terminal-Bench等评测的可靠性提出了挑战。提出了减少噪声的方法论建议。

anthropicevaluationagentic-codingbenchmarksnoiseswebench
4.0 · 优秀 开发者
Infra 2026-03-11 · 文章
AI 是一块“五层蛋糕”

2026 年 3 月 10 日 作者 黄仁勋 AI 是塑造当今世界的强大力量之一。它并非仅仅是一款巧妙的应用程序,也不是单一的模型,而是如同电力和互联网一样必不可少的基础设施。 AI 依托真实的硬件、能源和经济体系运行。它可以将原材料大规模地转化为智能。每家公司都将应用 AI, 每个国家/地区都将发展 AI。 要理解 AI 为何以这种方式发展,我们需要从基本原理进行推理,并了解计算领域发生了哪些根本性变化。

Inference
4.0 · 优秀 开发者
Infra 2026-01-28 · 文章
LiteRT: The Universal Framework for On-Device AI

Google 宣布 LiteRT(TensorFlow Lite 的演进版)成为端侧 AI 的通用框架。相比 TFLite,LiteRT 提供 1.4x GPU 性能提升、新增 NPU 加速支持、统一跨平台工作流(Android/iOS/macOS/Windows/Linux/Web),并通过 ML Drift 引擎支持 OpenCL/OpenGL/Metal/WebGPU。NPU 方面已与 MediaTek 和 Qualcomm 完成生产级集成,速度最高可达 CPU 的 100 倍、GPU 的 10 倍。同时支持 PyTorch/JAX 模型转换和 Gemma 系列模型的高效部署。

on-device AILiteRTTFLiteNPUGPUGemma
4.0 · 优秀 开发者
Infra 2026-01-05 · 文章
2026 AI First 系列(三):在被替代之前变得有价值——新经济下的生存法则

2026 AI First 系列(三):在被替代之前变得有价值——新经济下的生存法则 第一件事:你在做reinforcement learning from human feedback(RLHF)。每次你 第一件事:你在做reinforcement learning from human feedback(RLHF)。每次你修正AI的输出,每次你选择一个答案而不是另一个,你都在教它什么是好的、什么是不好的。 第二件事:你在数字化你的直觉。那些你"凭感觉"做出的判断,那些你"基于经验"的决策,正在被转化为数据点。AI在学习你的思维模式。

4.0 · 优秀 开发者
Infra 2025-12-03 · 文章
Qualcomm Snapdragon X2 Elite微架构

基于 Chip&Cheese PPT 解读高通第三代 Oryon 核心微架构。3 cluster 18 核最高 5GHz,共享 L2 16MB/cluster,9宽 decode/retire,ROB 650+。L1-Miss-L2-Hit 21 cycle,96KB DCache。L2 TLB 标称 8K entry(实测约 1.5K-2K)。前代的渐进优化。

QualcommSnapdragonOryonCPU微架构
3.0 · 值得看 开发者
Infra 2025-07-08 · 文章
GPU到底是如何工作的?这篇AI Infra入门全部告诉你

English The content of the article about GPU工作原理... 中文 GPU到底是如何工作的?这篇AI Infra入门全部告诉你 腾讯技术工程的文章深入浅出地介绍了GPU的工作原理。文章从硬件架构到软件层面,全面解析了GPU在AI计算中的核心作用。 主要内容: GPU的硬件架构和计算单元 并行计算的基本原理 在AI训练和推理中的应用 主要厂商和技术发展 对于想了解AI基础设施的人来说,这是一篇非常好的入门文章。

inference大模型
4.0 · 优秀 开发者
Infra 2024-12-25 · 文章
AI 技术的停滞,是革命的开始 – 虹线

1866 年,西门子的一位工程师发明了人类第一台直流发电机。 40 年后,通用电气在 1906 年开始量产真正让电灯普及的第一代白炽灯泡。 在这两者之间的半个世纪里,人类世界依然黑暗,电气的技术革命好像没有发生。 但,这只是因为我们身处后世,才能如此轻描淡写地将这 40 年一笔带过。对于当时的人们来说,电气技术的发展,是他们眼皮底下一天天展开的:第一条电报线路的铺设,第一个电话的接通,第一辆电车的开动,每一次技术的进步,都在真切地改变着他们的生活,只是它没有快到让当时的每个人都在一个时间点集体惊呼"啊,电气革命终于来了!"

ChatGPTOpenAIFine-tuningInferenceSpeechPerformance
4.0 · 优秀 开发者
Infra 2024-12-14 · 文章
微信正式发布多模态大模型POINTS1.5

吴恩达:从 Agent 到 Agentic Workflow ,AI 的未来何去何从? 作者:AI技能 原文链接: 公众号: AI技能 发布时间: 1970-01-01 08:33:44 原文链接: _关注 AI 技能,开启智能生活!___ 摘要 本文《AI 的未来何去何从?关于具有代理能力的系统》深入探讨了由 Andrew Ng 提出的具有代理能力的系统概念,强调这种系统通过迭代、自我改进的过程超越传统 AI 方法。 文章概述了具有代理能力系统的关键组成部分,如反思、使用工具、规划和多代理协作,并提供了创建用于生成 Medium 帖子想法的 AI 代理的逐步指南。该过程涉及设置代理类、制定详细的反应提示、创建工具/动作功能,并通过所有动作自动化代理,展示了 AI 的思考、规划和执行任务的潜力,无需人为干预。...

4.0 · 优秀 开发者
Infra 2023-11-29 · 文章
黄仁勋领导的 Nvidia 如何推动 AI 革命 [译]

这家公司的 CEO,黄仁勋,把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列,他的下一步会怎样?

4.0 · 优秀 开发者
Infra 2023-05-17 · 文章
70款ChatGPT插件评测:惊艳的开发过程与宏大的商业化愿景 - 知乎

70款ChatGPT插件评测:惊艳的开发过程与宏大的商业化愿景 - 知乎 TL;DR: 我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome,AppStore等平台的代码开发范式,开发者仅使用自然语言就可以开发ChatGPT插件,并由GPT模型自行决定在使用过程中是否调用插件。约八成插件… Shimmer: Nutrition Coach TL;DR: 我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome,AppStore等平台的代码开发范式,开发者仅使用自然语言就可以开发ChatGPT插件,并由GPT模型自行决定在使用过程中是否调用插件。约八成插件集中于购物、餐饮、旅行、住房和求职场景,其余分布在教育、财经咨讯、内容社区和编程技术场景...

ChatGPTOpenAIPrompt EngineeringBenchmark
4.0 · 优秀 开发者 / 研究者
Infra 2023-05-07 · 文章
ChatGPT背后的语言模型简史

ChatGPT的火爆出圈,让大家对NLP语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 本文处于初稿状态,可能存在很多错误,如果你有不同的看法,欢迎不吝赐教,先行感谢! ChatGPT的火爆出圈,让大家对自然语言处理(Natural Language Processing)语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 想必很多人对ChatGPT涌现出的多领域能...

chatgpt
4.0 · 优秀 开发者
Infra 2023-03-22 · 文章
真·万字长文:可能是全网最晚的chatgpt技术总结

最近ChatGPT可以说是火遍了全世界,作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型,他的核心在于能够理解人类的自然语言,并使用贴近人类语言风格的方式来进行回复。模型开放使用以来,在人工智能领域引起了巨大的轰动,也成功火出了技术圈。从数据上看,ChatGPT用户数在5天内就达到了100万,2个月就达到了1亿;另外,在很多非人工智能领域,已经有机构在尝试用ChatGPT去做一些智能生成的事。…

4.0 · 优秀 开发者
Infra 2023-03-16 · 文章
GPT-4 重磅发布,有哪些升级和变化?

GPT-4 重磅发布,有哪些升级和变化? 作者:qizailiu,腾讯 IEG 算法研究员 > 昨天 OpenAI 发布最新里程碑 AI 语言模型 GPT-4,GPT-4 是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。 本文主要参考 OpenAI 关于 GPT4 的官方 Blog,目前各公众号关于 GPT4 的内容基本来自官方 Blog、技术报告和官方视频内容。相关内容传送门: 官方 ChatGPT Plus 体验地址:<

promptgpt-4openaichatgpt
4.0 · 优秀 开发者
Infra 2023-02-14 · 文章
ChatGPT 算法原理

每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。 还是有很多读者对于ChatGPT充满期待(幻想?梦想),今天给大家分享技术层… 每一代GPT模型的参数量都爆炸式增长,堪称"越大越好"。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。 还是有很多读者对于ChatGPT充满期待(幻想?梦想),今天给大家分享技术层面的拆解,读完之后是否是会理性一点呢?enjoy~ 文末推荐几篇直接采访ChatGPT创始人视角的文章,共赏enjoy~ 去年1...

transformerfine-tuninggpt-4openaichatgpt
4.0 · 优秀 开发者
Infra 2022-03-18 · 文章
一文读懂 Fragment 的方方面面

Fragment 是 Android 中历史十分悠久的一个组件,在 Android 3.0 (API 级别 11)的时候推出,时至今日已成为 Android 开发中最常用的组件之一。在一开始的时候,引入 Fragment 的目的是为了在大屏

4.0 · 优秀 开发者
Infra 2022-01-20 · 文章
【开放阅读】2021 年度十大数字应用(服务) – Dailyio

本文选自付费邮件通讯「iPad Power User」,这是一份聚焦 iPad、iPadOS 与个人生产力的邮件通讯产品,通过不断探索与生活、工作息息相关的数字工具与方法论,为订阅读者提供中文互联网领域最优质的数字工具使用技巧、应用(服务)推荐以及数字化思考,欢迎试读、订阅。

4.0 · 优秀 开发者