Google-multimodal

1. 概述

多模态嵌入模型会根据您提供的输入生成 1408 维向量,这些输入可以包含图像、文本和视频数据的组合。这些嵌入向量随后可用于图像分类或视频内容审核等后续任务。 图像嵌入向量和文本嵌入向量位于同一语义空间,且维度相同。因此,在诸如通过文本搜索图像或通过图像搜索视频等应用场景中,这两个向量可以互换使用。

模型列表:

  • multimodalembedding@001

2. 请求说明

  • 请求方法:POST

  • 请求地址:

    https://gateway.theturbo.ai/v1/publishers/google/models/{model}:predict


3. 请求参数

3.1 Header 参数

参数名称
类型
必填
说明
示例值

Content-Type

string

设置请求头类型,必须为 application/json

application/json

x-goog-api-key

string

身份验证所需的 API_KEY,格式 $YOUR_API_KEY

$YOUR_API_KEY


3.2 Body 参数 (application/json)

instances 参数

参数名称
类型
必填
说明
示例

text

string

输入文本内容。

你好,请给我讲个笑话。

image.bytesBase64Encoded

string

输入图片内容。需要base64处理

parameters 参数

参数名称
类型
必填
说明
示例

dimension

int

嵌入维数。128 256 512 1408

1408


4. 请求示例

5. 响应示例

最后更新于