工具与项目 4.0 · 优秀 2026-04-17 · X

Research we co-authored on subliminal learning—...

Research we co-authored on ...

打开原文回到归档

Anthropic 关于亚记忆学习的联合研究发布

来源:X/Twitter
作者:@AnthropicAI
链接:https://x.com/AnthropicAI/status/2044493337835802948

Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today.

Quote: Owain Evans and collaborators

研究主题

亚记忆学习(Subliminal Learning):研究 LLMs 如何通过数据中的隐藏信号传递特征,如偏好或错位(misalignment)。

核心发现

这篇论文探讨了一个重要的 AI 安全问题:当 LLMs 在训练数据中学习时,是否会通过某些隐藏信号(subliminal signals)传递它们学到的不期望的特征或行为模式?

这与 AI 对齐(Alignment)研究密切相关,因为如果模型能够在看似无害的数据中"隐藏"地习得某些偏好或错位行为,这将对 AI 安全性构成新的挑战。

论文引用格式

具体论文信息请参阅原始发布页面。

评价

Anthropic 联合发表的这项研究聚焦于 LLMs 通过隐藏信号传递特征这一前沿问题,对 AI 安全和alignment 研究具有重要参考价值。