谷歌宣布推出Gemini 3.5实时翻译，实现即时语音对语音翻译

谷歌多年来一直在追求实时翻译，称这是其“开创性的机器学习实验”之一。我们在过去的谷歌活动中见过许多现场演示，但当时需要谷歌手机、耳机或其他特定设备。去年，谷歌将实时翻译带给更多用户，更新了翻译应用程序，现在正在进一步扩大可用性。随着Gemini 3.5实时翻译的发布，您将在更多地方获得即时翻译，并且延迟比以往任何时候都更低。新的人工智能模型是3.5版本系列的一部分，该系列在I/O活动上推出。在今天之前，谷歌仅推出了Flash版本，但我们预计在接下来的几周内会推出Pro版本。Gemini 3.5实时翻译是一个语音对语音模型，能够自动识别和翻译超过70种语言。谷歌表示，Gemini 3.5实时翻译足够快，可以跟上正常对话，跟随说话者延迟仅几秒，并且匹配语调、节奏和音高。简而言之，声音听起来更像您而不是一个普通机器人。所有演示都在受控条件下进行，效果确实令人印象深刻。不过，您无需等待太久就能亲自验证该模型的能力。Google Meet中的语音翻译使用Gemini 3.5实时翻译。Gemini 3.5实时翻译正在谷歌生态系统的多个部分推出。开发者可以开始使用Gemini Live API或AI Studio中的公共预览进行构建。该模型连续处理语音，自动处理所有多语言输入，免去开发者手动配置设置的麻烦。它还能够在嘈杂环境中过滤背景噪音。