Google bringt Technologie selektives hören bei

von Marcel Wüthrich

17. April 2018 - Google arbeitet daran, seiner künstlichen Intelligenz selektives Hören beizubringen, so dass sie erkennen kann, welche Person spricht und was nur Nebengeräusche sind.

Menschen können auch in einer lärmigen Umgebung ihren Fokus auf die Person legen, mit der sie sprechen. Dabei spricht man vom Cocktail-Party-Effekt. Für Computer hingegen ist es eine Herausforderung, ein Audiosignal seiner Quelle zuzuordnen. Doch genau daran arbeitet Google aktuell, wie das Unternehmen in einem längeren Blog-Beitrag beschreibt.

Man habe ein audio-visuelles Modell entwickelt, das mittels Deep-Learning in der Lage sein soll, ein einzelnes Sprachsignal aus dem Soundmix heraus zu isolieren. Dabei nimmt Google Video zu Hilfe. In Verbindung mit Videoaufnahmen kann die Lösung feststellen, welche Person spricht, und kann deren Töne herausfiltern und verstärken, während alle anderen Töne gedämpft werden (siehe Video). Dazu werden die Audio- und die Videosignale zuerst kombiniert und die Mundbewegungen des Sprechers mit den passenden Audiosegmenten kombiniert, um dann einzelne Sprachsignale isoliert ausgeben zu können.

Die Technologie könnte unter anderem zur Verbesserungen von Videokonferenzen zum Einsatz kommen, aber auch zur Unterstützung von Personen mit beeinträchtigtem Gehör. Man sei aktuell daran, mögliche Anwendungsgebiete in Google-Produkten zu finden, erklärten die Verantwortlichen.

Copyright by Swiss IT Media GmbH / 2024