Building with Gemini Embedding 2: Agentic multimodal RAG and beyond

使用 Gemini Embedding 2 构建：代理式多模态 RAG 及更多

原文链接: https://developers.googleblog.com/building-with-gemini-embedding-2/

2026年4月30日

上周，我们宣布了 Gemini Embedding 2 通过 Gemini API 和 Gemini Enterprise Agent Platform 全面上市（GA）。这是 Gemini API 中第一个将文本、图像、视频、音频和文档映射到单一嵌入空间的嵌入模型，支持超过 100 种语言。

在这篇文章中，我们将探索这个统一模型解锁的多样化用例，从代理式多模态 RAG 到视觉搜索，并向您展示如何开始构建。

关于 Gemini Embedding 2

该模型在单次调用中处理大范围输入：最多 8,192 个文本 token、6 张图像、120 秒视频、180 秒音频和 6 页 PDF。通过在同一语义空间中映射不同模态，开发者可以构建能够「看到」和「听到」专有数据的多样化体验。

Gemini Embedding 2 的真正力量在于其处理交错输入（如文本和图像组合）的能力：

from google import genai
from google.genai import types

client = genai.Client()

with open('dog.png', 'rb') as f:
    image_bytes = f.read()

result = client.models.embed_content(
    model='gemini-embedding-2',
    contents=[
        "An image of a dog",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type='image/png',
        ),
    ]
)

print(result.embeddings)

代理式检索增强生成（RAG）

多模态嵌入使 AI 代理能够执行多步推理任务，例如扫描数百个文件来修复代码库或交叉引用不同的 PDF，具有更高的理解和准确性。

要使用 Gemini API 构建这些管道，您可以使用基于代理目标的任务前缀。这些前缀为您的特定任务优化生成的嵌入，帮助模型弥合短查询和长文档之间的差距。

在索引时间和查询时间同时应用这些前缀可以显著提高检索准确性。

许多用户已经看到采用 Gemini Embedding 2 的积极影响。Harvey（面向律师事务所和企业的法律研究平台）在法律特定基准测试中看到召回率@20 精度比之前的嵌入提高 3%。Supermemory 实现了搜索召回率@1 准确度提高 40%。

多模态搜索

您还可以使用 Gemini Embedding 2 构建基于多模态输入搜索数据的工具。Nuuly（URBN 的服装租赁公司）使用该模型为其内部视觉搜索工具提供支持，根据仓库地面拍摄的照片匹配其目录以识别未贴标签的服装。这一实现将 Match@20 准确率从 60% 推高到近 87%，产品成功识别率从 74% 提升到超过 90%。

搜索重排

对于检索管道，您可以使用嵌入来重排初始结果以获得绝对最佳答案。通过计算嵌入搜索结果与用户查询之间的嵌入的距离度量来实现。

聚类、分类和异常检测

嵌入对于通过基于相似性创建聚类来掌握数据之间的关系很有用。您还可以快速识别隐藏趋势或异常值，这使得相同的技术成为情感分析和异常检测的完美基础。

高效存储和使用嵌入

您可以将嵌入存储在向量数据库中，如 Pinecone、Weaviate、Qdrant 或 ChromaDB。

Gemini Embedding 2 使用 Matryoshka 表征学习（MRL）进行训练，因此您可以使用 output_dimensionality 参数将默认的 3072 维向量截断为更小的维度以实现更高效的存储。（我们建议使用 1536 或 768 以获得最高效率。）

Batch API 以默认嵌入价格的 50% 实现更高的吞吐量。