Google Gemini Embedding 2 多模态嵌入模型

@GoogleAI

Google 推出了首个原生多模态嵌入模型，支持视频分析、视觉购物助手等多种应用场景，现已向公众开放使用。

Gemini Embedding 2 是 Google 首个原生多模态嵌入模型，能够在统一空间内处理文本、图像、视频和音频。解锁视频理解、视觉购物助手、内容审核等多种应用场景。

@AISGateway：值得为 RAG 构建者注意的是：多模态嵌入意味着图像、视频和音频现在会通过你的嵌入 API 传输。包含面孔、文档、音频中的姓名。PII 表面比纯文本 RAG 所需的显著扩大了。

@deepbuilt：治理影响：多模态 RAG 意味着带 PII 的图像和视频现在通过你的嵌入管道路由。纯文本数据治理假设不再成立。

@kkiran：可以上传学校篮球视频并检索所有进球时间戳吗？更进一步，按球衣号码 22 所有进球和 44 的助攻——如果能做到，这将是一个真正的游戏改变者。

@RoshanRamani007：所以……你让我的相机相册可以通过氛围搜索了。

@AndrewSohrabi：这是来自主要实验室的第一个原生多模态嵌入模型。

@OzAIHub：嵌入就像小指纹，帮助模型识别相似的内容。期待演示，目前最喜欢哪个？

@DavidPensomate：发布到 Docker Ollama 上，我就发简历给你。

@kriptoloji22：嵌入正在成为接口。不是文本，不是 UI。只是向量决定什么是重要的。

继续阅读