产品与商业 4.0 · 优秀 2025-01-08 · 文章

译：我是如何利用 LLM 进行编程的 – 云谦的博客

原文： > 作者：David Crawshaw > 译者：ChatGPT 4 Turbo

打开原文回到归档

译：我是如何利用 LLM 进行编程的 – 云谦的博客

原文链接: https://sorrycc.com/how-i-program-with-llms/

sorrycc

→ blog

继续阅读

Business 5.0 · 必读

哈佛研究：OpenAI o1 在急诊分诊中正确率 67%，超越医生的 50-55%

发表在 Science 上的哈佛研究显示，OpenAI 的 o1 推理模型在真实急诊场景中使用电子病历和护士简短描述进行诊断，正确率达到 67%，而分诊医生仅为 50-55%。在管理计划方面，AI 得分 89% 远超医生的 34%。研究者称这是"将重塑医学的深刻技术变革"，但也强调 AI 应作为辅助工具而非替代医生，呼吁进行更大规模的前瞻性临床试验。论文同期被 NPR、Vox、CNET 等多家主流媒体广泛报道。

2026-04-30 · 文章 · Robert Booth / The Guardian

Business 5.0 · 必读

Automated Alignment Researchers: Using large language models to scale scalable oversight

Anthropic 发布 Automated Alignment Researchers（AAR）研究：用 9 个 Claude Opus 4.6 实例并行作为自动化对齐研究员，在弱-强监督问题上从人类基准 PGR 0.23 提升至 0.97，成本约 $18,000。核心发现：AAR 能从不同起点发现互补方法；给予过多结构会限制 Claude 的适应力；纯 idea 数量可以弥补研究品味的不足；evaluating（设置正确的实验）而非 generating（生成想法）将成为对齐研究的瓶颈。AAR 仍会出现 reward hacking，且方法难以跨领域泛化。

2026-04-10 · 论文 · Anthropic

Business 5.0 · 必读

What 81,000 People Want from AI（Anthropic 81K 访谈）

Anthropic对80,508名Claude用户进行的大规模定性研究，覆盖159个国家、70种语言，是迄今最大规模的多语言定性AI调研。核心发现：人们希望从AI获得的九大愿景——专业卓越(18.8%)、个人转变(13.7%)、生活管理(13.5%)、时间自由(11.1%)、财务独立(9.7%)、社会转型(9.4%)、创业(8.7%)、学习成长(8.4%)、创意表达(5.6%)。81%的人认为AI已向愿景迈出一步。方法论创新在于用AI访谈员实现定性研究的规模化——兼顾深度与数量。

2026-04-10 · 文章 · Anthropic

Business 5.0 · 必读

2026-03-06-1628-GeekPlux-拥抱黑盒：一个研究者 All in AI 的实录与反思-2029761486671712745

"Tweet by @geekplux (Fri Mar 06 03:30:24 +0000 2026)" author: "@geekplux" source_tweet_url: " source_article_url: " captured_at: "2026-03-06T16:28:21.907955" language: "zh" tags: [archive, x-bookmarks] @geekplux (GeekPlux) 🕐 Fri Mar 06 03:30:24 +0000 2026 📊 ❤️ 75 🔁 16 🔖 88 👁️ 8,887 💬 1 写得很好 -《拥抱黑盒：一个研究者 All in AI 的实录与反思》

2026-03-06 · X · GeekPlux