谷歌宣布推出Gemini 3.5实时翻译,实现即时语音对语音翻译
Ars Technica2026年6月9日 18:57
谷歌多年来一直在追求实时翻译,称这是其“开创性的机器学习实验”之一。我们在过去的谷歌活动中见过许多现场演示,但当时需要谷歌手机、耳机或其他特定设备。去年,谷歌将实时翻译带给更多用户,更新了翻译应用程序,现在正在进一步扩大可用性。随着Gemini 3.5实时翻译的发布,您将在更多地方获得即时翻译,并且延迟比以往任何时候都更低。新的人工智能模型是3.5版本系列的一部分,该系列在I/O活动上推出。在今天之前,谷歌仅推出了Flash版本,但我们预计在接下来的几周内会推出Pro版本。Gemini 3.5实时翻译是一个语音对语音模型,能够自动识别和翻译超过70种语言。谷歌表示,Gemini 3.5实时翻译足够快,可以跟上正常对话,跟随说话者延迟仅几秒,并且匹配语调、节奏和音高。简而言之,声音听起来更像您而不是一个普通机器人。所有演示都在受控条件下进行,效果确实令人印象深刻。不过,您无需等待太久就能亲自验证该模型的能力。Google Meet中的语音翻译使用Gemini 3.5实时翻译。Gemini 3.5实时翻译正在谷歌生态系统的多个部分推出。开发者可以开始使用Gemini Live API或AI Studio中的公共预览进行构建。该模型连续处理语音,自动处理所有多语言输入,免去开发者手动配置设置的麻烦。它还能够在嘈杂环境中过滤背景噪音。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡