Google hat seine Audio-Modelle weiterentwickelt und will damit deutlich bessere Voice-Interaktionen ermöglichen. Nach den Text-to-Speech-Modellen Gemini 2.5 Pro und Flash hat
Google jetzt Gemini 2.5 Flash Native Audio angekündigt, mit dem Voice-Agenten in Echtzeit möglich werden sollen. Das Modell wird in Produkte wie Google AI Studio, Vertex AI so wie in Gemini Live und Search Live integriert. Die Live-Suchfunktion soll damit erstmals natürliche Audiokommunikation bieten. Vorerst bleibt das neue Modell allerdings Nutzern in den USA vorbehalten.
Des Weiteren steckt Gemini 2.5 Flash Native Audio hinter einer neuen Live-Sprachübersetzungsfunktion für Kopfhörer. Die Sprechweise des Originalsprechers soll dabei auf natürliche Weise nachgebildet werden. Die Originalsprachen werden dabei automatisch erkannt. Diese Funktion ist ab sofort Teil der Google Translate App und unterstützt 70 Sprachen und 2000 Sprachpaare. Auch diese Funktion steht zunächst nicht auf der ganzen Welt zur Verfügung. Sie ist aktuell auf die USA, Mexiko und Indien sowie auf Android-Geräte beschränkt. Weitere Regionen und iOS sollen später folgen.
(ubi)