Menschen können auch in einer lärmigen Umgebung ihren Fokus auf die Person legen, mit der sie sprechen. Dabei spricht man vom Cocktail-Party-Effekt. Für Computer hingegen ist es eine Herausforderung, ein Audiosignal seiner Quelle zuzuordnen. Doch genau daran arbeitet
Google aktuell, wie das Unternehmen in einem längeren Blog-Beitrag
beschreibt.
Man habe ein audio-visuelles Modell entwickelt, das mittels Deep-Learning in der Lage sein soll, ein einzelnes Sprachsignal aus dem Soundmix heraus zu isolieren. Dabei nimmt Google Video zu Hilfe. In Verbindung mit Videoaufnahmen kann die Lösung feststellen, welche Person spricht, und kann deren Töne herausfiltern und verstärken, während alle anderen Töne gedämpft werden (siehe Video). Dazu werden die Audio- und die Videosignale zuerst kombiniert und die Mundbewegungen des Sprechers mit den passenden Audiosegmenten kombiniert, um dann einzelne Sprachsignale isoliert ausgeben zu können.
Die Technologie könnte unter anderem zur Verbesserungen von Videokonferenzen zum Einsatz kommen, aber auch zur Unterstützung von Personen mit beeinträchtigtem Gehör. Man sei aktuell daran, mögliche Anwendungsgebiete in Google-Produkten zu finden, erklärten die Verantwortlichen.
(mw)