Mit Übersetzung habe man vor 20 Jahren eines seiner wegweisenden Experimente im Bereich Machine Learning begonnen, schreibt
Google in einem Blogpost zu seinem neuesten Audiomodell für Live-Sprachübersetzung: Gemini 3.5 Live Translate erkennt demnach automatisch über 70 Sprachen, verarbeitet mehrsprachige Eingaben ohne manuelle Konfiguration, zeigt sich gegenüber Störgeräuschen robust und erzeugt laut Google "flüssige, natürlich klingende Übersetzungen, die Intonation, Sprechtempo und Tonhöhe beibehalten".
Das neue Modell generiere im Gegensatz zu Systemen, die auf das Ende des Sprechens warten, die übersetzte Sprache kontinuierlich. Die Übersetzung soll dabei während der gesamten Session nur wenige Sekunden hinter dem Sprecher liegen. Google empfiehlt sein neues Modell unter anderem für das Live-Dolmetschen in mehrsprachigen Anrufen, Meetings, Unterrichtslektionen und Sendungen. Die resultierenden Audiodateien werden mit einem SynthID-Wasserzeichen versehen, sodass sie als KI-generierte Inhalte erkennbar sind.
Gemini 3.5 Live Translate findet sich gemäss dem Blogpost ab sofort in allen Google-Produkten. Für die Allgemeinheit steht das Modell via Google Translate unter Android und iOS zur Verfügung. Unternehmen können in Google Meet eine private Vorschau starten, und für Entwickler gibt es eine öffentliche Preview über die Gemini Live API und Google AI Studio. Darüber hinaus ist Gemini Live Translate beziehungsweise die entsprechende API in Entwicklerplattformen wie Agora, Fishjam, Livekit, Pipecat und Vision Agents verfügbar.
(ubi)