Google Gemini TTS

1. 概述

Gemini API 可以使用原生文字转语音 (TTS) 生成功能将文本输入转换为单人或多人音频。文字转语音 (TTS) 生成是可控的,这意味着您可以使用自然语言来构建互动,并引导音频的风格、口音、节奏和音调。

目前gemini的tts模型仍处于preview阶段。

模型列表:

  • gemini-2.5-flash-preview-tts

  • gemini-2.5-pro-preview-tts

2. 请求说明

  • 请求方法:POST

  • 请求地址:

    https://gateway.theturbo.ai/v1/audio/speech


3. 请求参数

3.1 Header 参数

参数名称
类型
必填
说明
示例值

Content-Type

string

设置请求头类型,必须为 application/json

application/json

Authorization

string

身份验证所需的 API_KEY,格式 Bearer $YOUR_API_KEY

Bearer $YOUR_API_KEY


3.2 Body 参数 (application/json)

参数名称
类型
必填
说明
示例(默认值)

model

string

要使用的模型 ID。详见概述列出的可用版本,如 gemini-2.5-flash-preview-tts

gemini-2.5-flash-preview-tts

input

string

用于生成音频的文本,上下文窗口限制为3.2 万token 。

hello, what's your name?

voice

string

用于生成音频的语音类型。支持:Zephyr Puck Charon Kore Fenrir Leda Orus Aoede Callirrhoe等(官网详细列表)。

Kore

response_format

string

音频的输出格式。目前只支持 pcm

pcm


4. 请求示例

POST /v1/audio/speech
Content-Type: application/json
Authorization: Bearer $YOUR_API_KEY

{
	"model": "gemini-2.5-flash-preview-tts",
	"input": "hello, what's your name?",
	"voice": "Kore"
}

5. 响应示例

HTTP/1.1 200 OK
Content-Type: audio/L16;codec=pcm;rate=24000

音频pcm文件

最后更新于