工具与项目 5.0 · 必读 2026-04-16 · X

Google 推出 Gemini 3.1 Flash TTS:音频标签控制语音风格与节奏

Gemini 3.1 Flash TTS 是 Google 迄今为止表现力最强、可控性最高的语音合成模型。核心新功能 Audio Tags:用自然语言命令嵌入文本来引导语音风格、节奏和表达方式。可在 Google AI Studio 或 Vertex AI 直接调用,适合有声内容、语音助手、播客类 AI 应用。音频标签让语音合成从调参数变成写指令,大幅降低了 AI 语音定制门槛。

打开原文回到归档

Title: Google 推出 Gemini 3.1 Flash TTS:音频标签控制语音风格与节奏 Source: https://x.com/GoogleAI/status/2044447560384102592 Author: @GoogleAI

EN: Today we launched Gemini 3.1 Flash TTS, our most expressive and controllable text-to-speech model yet. ZH: 今天我们发布了 Gemini 3.1 Flash TTS,这是我们迄今为止表现力最强、可控性最高的语音合成模型。

EN: This launch includes audio tags! 🗣🏷 Audio tags are a seamless way to guide vocal style, pace, and delivery using natural language commands embedded directly in your text. Want a different tempo or tone? Just tag the audio to steer the AI-speech output!

EN: The model supports 70+ languages (24 of which are high-quality evaluated languages, including: Japanese, Hindi, and Arabic). Watch the audio tags in action in the demo below. ZH: 该模型支持 70 多种语言(其中 24 种经过高质量评估,包括日语、印地语和阿拉伯语)。请观看下方演示,了解音频标签的实际效果。