模型与实验室 5.0 · 必读 2026-05-03 · X

Google Gemini Embedding 2 多模态嵌入模型

Google推出的首个原生多模态嵌入模型,支持视频分析、视觉购物助手等多种应用场景,已向公众开放使用。

打开原文回到归档

Google Gemini Embedding 2 多模态嵌入模型

原始推文

@GoogleAI

Google 推出了首个原生多模态嵌入模型,支持视频分析、视觉购物助手等多种应用场景,现已向公众开放使用。

Gemini Embedding 2 是 Google 首个原生多模态嵌入模型,能够在统一空间内处理文本、图像、视频和音频。解锁视频理解、视觉购物助手、内容审核等多种应用场景。

热门评论摘录

@AISGateway:值得为 RAG 构建者注意的是:多模态嵌入意味着图像、视频和音频现在会通过你的嵌入 API 传输。包含面孔、文档、音频中的姓名。PII 表面比纯文本 RAG 所需的显著扩大了。

@deepbuilt:治理影响:多模态 RAG 意味着带 PII 的图像和视频现在通过你的嵌入管道路由。纯文本数据治理假设不再成立。

@kkiran:可以上传学校篮球视频并检索所有进球时间戳吗?更进一步,按球衣号码 22 所有进球和 44 的助攻——如果能做到,这将是一个真正的游戏改变者。

@RoshanRamani007:所以……你让我的相机相册可以通过氛围搜索了。

@AndrewSohrabi:这是来自主要实验室的第一个原生多模态嵌入模型。

@OzAIHub:嵌入就像小指纹,帮助模型识别相似的内容。期待演示,目前最喜欢哪个?

@DavidPensomate:发布到 Docker Ollama 上,我就发简历给你。

@kriptoloji22:嵌入正在成为接口。不是文本,不是 UI。只是向量决定什么是重要的。