模型与实验室 3.0 · 值得看 2026-05-01 · 文章

ChatGPT Images 2.0 发布,Where's Waldo 风格测试引发争议

Source: Simon Willison | 2026-04-21 URL: net/2026/Apr/21/gpt-image-2/ OpenAI 发布 ChatGPT Images 2. 0,Sam Altman 称从 gpt-image-1 到 2 是巨大飞跃. Simon Willison 测试发现:细节还原很好但文字渲染仍有错误;让模型找自己生成的 raccoon 并画红圈,模型答错了自己在图里画的内容——说明多模态模型的自我验证能力仍存在明显漏洞. 这类 Where's Waldo 风格测试暴露了当前图像生成+视觉推理 pipeli

回到归档

Source: Simon Willison | 2026-04-21 URL: net/2026/Apr/21/gpt-image-2/ OpenAI 发布 ChatGPT Images 2. 0,Sam Altman 称从 gpt-image-1 到 2 是巨大飞跃. Simon Willison 测试发现:细节还原很好但文字渲染仍有错误;让模型找自己生成的 raccoon 并画红圈,模型答错了自己在图里画的内容——说明多模态模型的自我验证能力仍存在明显漏洞. 这类 Where's Waldo 风格测试暴露了当前图像生成+视觉推理 pipeli