产品与商业 4.0 · 优秀 2025-01-08 · 文章 译:我是如何利用 LLM 进行编程的 – 云谦的博客 原文: > 作者:David Crawshaw > 译者:ChatGPT 4 Turbo 打开原文回到归档 译:我是如何利用 LLM 进行编程的 – 云谦的博客 原文链接: https://sorrycc.com/how-i-program-with-llms/ sorrycc → blog Related继续阅读 Business 5.0 · 必读 哈佛研究:OpenAI o1 在急诊分诊中正确率 67%,超越医生的 50-55% 发表在 Science 上的哈佛研究显示,OpenAI 的 o1 推理模型在真实急诊场景中使用电子病历和护士简短描述进行诊断,正确率达到 67%,而分诊医生仅为 50-55%。在管理计划方面,AI 得分 89% 远超医生的 34%。研究者称这是"将重塑医学的深刻技术变革",但也强调 AI 应作为辅助工具而非替代医生,呼吁进行更大规模的前瞻性临床试验。论文同期被 NPR、Vox、CNET 等多家主流媒体广泛报道。 2026-04-30 · 文章 · Robert Booth / The Guardian Business 5.0 · 必读 Automated Alignment Researchers: Using large language models to scale scalable oversight Anthropic 发布 Automated Alignment Researchers(AAR)研究:用 9 个 Claude Opus 4.6 实例并行作为自动化对齐研究员,在弱-强监督问题上从人类基准 PGR 0.23 提升至 0.97,成本约 $18,000。核心发现:AAR 能从不同起点发现互补方法;给予过多结构会限制 Claude 的适应力;纯 idea 数量可以弥补研究品味的不足;evaluating(设置正确的实验)而非 generating(生成想法)将成为对齐研究的瓶颈。AAR 仍会出现 reward hacking,且方法难以跨领域泛化。 2026-04-10 · 论文 · Anthropic Business 5.0 · 必读 What 81,000 People Want from AI(Anthropic 81K 访谈) Anthropic对80,508名Claude用户进行的大规模定性研究,覆盖159个国家、70种语言,是迄今最大规模的多语言定性AI调研。核心发现:人们希望从AI获得的九大愿景——专业卓越(18.8%)、个人转变(13.7%)、生活管理(13.5%)、时间自由(11.1%)、财务独立(9.7%)、社会转型(9.4%)、创业(8.7%)、学习成长(8.4%)、创意表达(5.6%)。81%的人认为AI已向愿景迈出一步。方法论创新在于用AI访谈员实现定性研究的规模化——兼顾深度与数量。 2026-04-10 · 文章 · Anthropic Business 5.0 · 必读 2026-03-06-1628-GeekPlux-拥抱黑盒:一个研究者 All in AI 的实录与反思-2029761486671712745 "Tweet by @geekplux (Fri Mar 06 03:30:24 +0000 2026)" author: "@geekplux" source_tweet_url: " source_article_url: " captured_at: "2026-03-06T16:28:21.907955" language: "zh" tags: [archive, x-bookmarks] @geekplux (GeekPlux) 🕐 Fri Mar 06 03:30:24 +0000 2026 📊 ❤️ 75 🔁 16 🔖 88 👁️ 8,887 💬 1 写得很好 -《拥抱黑盒:一个研究者 All in AI 的实录与反思》 2026-03-06 · X · GeekPlux
Business 5.0 · 必读 哈佛研究:OpenAI o1 在急诊分诊中正确率 67%,超越医生的 50-55% 发表在 Science 上的哈佛研究显示,OpenAI 的 o1 推理模型在真实急诊场景中使用电子病历和护士简短描述进行诊断,正确率达到 67%,而分诊医生仅为 50-55%。在管理计划方面,AI 得分 89% 远超医生的 34%。研究者称这是"将重塑医学的深刻技术变革",但也强调 AI 应作为辅助工具而非替代医生,呼吁进行更大规模的前瞻性临床试验。论文同期被 NPR、Vox、CNET 等多家主流媒体广泛报道。 2026-04-30 · 文章 · Robert Booth / The Guardian
Business 5.0 · 必读 Automated Alignment Researchers: Using large language models to scale scalable oversight Anthropic 发布 Automated Alignment Researchers(AAR)研究:用 9 个 Claude Opus 4.6 实例并行作为自动化对齐研究员,在弱-强监督问题上从人类基准 PGR 0.23 提升至 0.97,成本约 $18,000。核心发现:AAR 能从不同起点发现互补方法;给予过多结构会限制 Claude 的适应力;纯 idea 数量可以弥补研究品味的不足;evaluating(设置正确的实验)而非 generating(生成想法)将成为对齐研究的瓶颈。AAR 仍会出现 reward hacking,且方法难以跨领域泛化。 2026-04-10 · 论文 · Anthropic
Business 5.0 · 必读 What 81,000 People Want from AI(Anthropic 81K 访谈) Anthropic对80,508名Claude用户进行的大规模定性研究,覆盖159个国家、70种语言,是迄今最大规模的多语言定性AI调研。核心发现:人们希望从AI获得的九大愿景——专业卓越(18.8%)、个人转变(13.7%)、生活管理(13.5%)、时间自由(11.1%)、财务独立(9.7%)、社会转型(9.4%)、创业(8.7%)、学习成长(8.4%)、创意表达(5.6%)。81%的人认为AI已向愿景迈出一步。方法论创新在于用AI访谈员实现定性研究的规模化——兼顾深度与数量。 2026-04-10 · 文章 · Anthropic
Business 5.0 · 必读 2026-03-06-1628-GeekPlux-拥抱黑盒:一个研究者 All in AI 的实录与反思-2029761486671712745 "Tweet by @geekplux (Fri Mar 06 03:30:24 +0000 2026)" author: "@geekplux" source_tweet_url: " source_article_url: " captured_at: "2026-03-06T16:28:21.907955" language: "zh" tags: [archive, x-bookmarks] @geekplux (GeekPlux) 🕐 Fri Mar 06 03:30:24 +0000 2026 📊 ❤️ 75 🔁 16 🔖 88 👁️ 8,887 💬 1 写得很好 -《拥抱黑盒:一个研究者 All in AI 的实录与反思》 2026-03-06 · X · GeekPlux