Google Gemini Embedding 2 多模态嵌入模型
原始推文
@GoogleAI
Google 推出了首个原生多模态嵌入模型,支持视频分析、视觉购物助手等多种应用场景,现已向公众开放使用。
Gemini Embedding 2 是 Google 首个原生多模态嵌入模型,能够在统一空间内处理文本、图像、视频和音频。解锁视频理解、视觉购物助手、内容审核等多种应用场景。
热门评论摘录
@AISGateway:值得为 RAG 构建者注意的是:多模态嵌入意味着图像、视频和音频现在会通过你的嵌入 API 传输。包含面孔、文档、音频中的姓名。PII 表面比纯文本 RAG 所需的显著扩大了。
@deepbuilt:治理影响:多模态 RAG 意味着带 PII 的图像和视频现在通过你的嵌入管道路由。纯文本数据治理假设不再成立。
@kkiran:可以上传学校篮球视频并检索所有进球时间戳吗?更进一步,按球衣号码 22 所有进球和 44 的助攻——如果能做到,这将是一个真正的游戏改变者。
@RoshanRamani007:所以……你让我的相机相册可以通过氛围搜索了。
@AndrewSohrabi:这是来自主要实验室的第一个原生多模态嵌入模型。
@OzAIHub:嵌入就像小指纹,帮助模型识别相似的内容。期待演示,目前最喜欢哪个?
@DavidPensomate:发布到 Docker Ollama 上,我就发简历给你。
@kriptoloji22:嵌入正在成为接口。不是文本,不是 UI。只是向量决定什么是重要的。