使用 Gemini Embedding 2 构建:代理式多模态 RAG 及更多
原文链接: https://developers.googleblog.com/building-with-gemini-embedding-2/
2026年4月30日
上周,我们宣布了 Gemini Embedding 2 通过 Gemini API 和 Gemini Enterprise Agent Platform 全面上市(GA)。这是 Gemini API 中第一个将文本、图像、视频、音频和文档映射到单一嵌入空间的嵌入模型,支持超过 100 种语言。
在这篇文章中,我们将探索这个统一模型解锁的多样化用例,从代理式多模态 RAG 到视觉搜索,并向您展示如何开始构建。
关于 Gemini Embedding 2
该模型在单次调用中处理大范围输入:最多 8,192 个文本 token、6 张图像、120 秒视频、180 秒音频和 6 页 PDF。通过在同一语义空间中映射不同模态,开发者可以构建能够「看到」和「听到」专有数据的多样化体验。
Gemini Embedding 2 的真正力量在于其处理交错输入(如文本和图像组合)的能力:
from google import genai
from google.genai import types
client = genai.Client()
with open('dog.png', 'rb') as f:
image_bytes = f.read()
result = client.models.embed_content(
model='gemini-embedding-2',
contents=[
"An image of a dog",
types.Part.from_bytes(
data=image_bytes,
mime_type='image/png',
),
]
)
print(result.embeddings)
代理式检索增强生成(RAG)
多模态嵌入使 AI 代理能够执行多步推理任务,例如扫描数百个文件来修复代码库或交叉引用不同的 PDF,具有更高的理解和准确性。
要使用 Gemini API 构建这些管道,您可以使用基于代理目标的任务前缀。这些前缀为您的特定任务优化生成的嵌入,帮助模型弥合短查询和长文档之间的差距。
在索引时间和查询时间同时应用这些前缀可以显著提高检索准确性。
许多用户已经看到采用 Gemini Embedding 2 的积极影响。Harvey(面向律师事务所和企业的法律研究平台)在法律特定基准测试中看到召回率@20 精度比之前的嵌入提高 3%。Supermemory 实现了搜索召回率@1 准确度提高 40%。
多模态搜索
您还可以使用 Gemini Embedding 2 构建基于多模态输入搜索数据的工具。Nuuly(URBN 的服装租赁公司)使用该模型为其内部视觉搜索工具提供支持,根据仓库地面拍摄的照片匹配其目录以识别未贴标签的服装。这一实现将 Match@20 准确率从 60% 推高到近 87%,产品成功识别率从 74% 提升到超过 90%。
搜索重排
对于检索管道,您可以使用嵌入来重排初始结果以获得绝对最佳答案。通过计算嵌入搜索结果与用户查询之间的嵌入的距离度量来实现。
聚类、分类和异常检测
嵌入对于通过基于相似性创建聚类来掌握数据之间的关系很有用。您还可以快速识别隐藏趋势或异常值,这使得相同的技术成为情感分析和异常检测的完美基础。
高效存储和使用嵌入
您可以将嵌入存储在向量数据库中,如 Pinecone、Weaviate、Qdrant 或 ChromaDB。
Gemini Embedding 2 使用 Matryoshka 表征学习(MRL)进行训练,因此您可以使用 output_dimensionality 参数将默认的 3072 维向量截断为更小的维度以实现更高效的存储。(我们建议使用 1536 或 768 以获得最高效率。)
Batch API 以默认嵌入价格的 50% 实现更高的吞吐量。
开始使用 Gemini Embedding 2
我们很高兴看到原生多模态嵌入如何跨行业和用例提高对复杂数据的理解。准备好开始了吗?