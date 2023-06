Meta entwickelt Sprach-KI Voicebox, hält sie aber unter Verschluss

(Quelle: Meta)

21. Juni 2023 - Voicebox, eine neue KI von Meta, kann nach einer Audio-Probe von zwei Sekunden die Sprache einer Person nachahmen und zudem Text in Sprache verwandeln und gleichzeitig übersetzen. Vorerst bleibt das Modell aus ethischen Gründen aber noch unter Verschluss.

Das Facebook-Mutterhaus Meta präsentiert Voicebox, eine generative Künstliche Intelligenz für Sprache, lanciert diese aber trotz ihrer Vielseitigkeit aus Angst vor Missbrauch noch nicht, wie das Unternehmen meldet und sich in dieser Meldung darauf beschränkt, zu zeigen, was Voicebox kann und wie es funktioniert.Demnach kann das generative KI-Modell Audio-Dateien editieren, sampeln und verändern ohne dafür speziell durch kontextbezogenes Lernen trainiert worden zu sein. Dabei produziert Voicebox Audioclips und kann zuvor aufgenommenes Audiomaterial bearbeiten, ohne den Inhalt und den Stil des Materials zu verändern. Zudem kann das Modell Inhalte in sechs Sprachen – Englisch, Französisch, Deutsch, Spanisch, Polnisch oder Portugiesisch – produzieren.

Des Weiteren könnte Voicebox in Zukunft die Bearbeitung von Audiospuren erleichtern, um sehbehinderten Menschen die Möglichkeit zu geben, schriftliche Nachrichten von Freunden in ihrer Stimme zu hören, oder damit Menschen eine Fremdsprache mit ihrer eigenen Stimme sprechen könnten.Die Vielseitigkeit von Voicebox ermögliche viele Aufgaben, so Meta . Als Beispiel nennt das Unternehmen etwa die Text-zu-Sprache-Synthese. Mit einem Audiobeispiel, das zwei Sekunden lang ist, kann Voicebox den Audiostil anpassen und für die Text-to-Speech-Erzeugung verwenden. Ausserdem kann die Sprach-KI einen durch Störgeräusche wie Hundegebell unterbrochenen Teil der Rede wiederherstellen oder falsch gesprochene Wörter ersetzen, ohne dass die gesamte Rede neu aufgezeichnet werden muss, und Textpassagen oder Sprachproben in den genannten sechs Sprachen können in jeder dieser Sprachen vorgelesen werden, selbst wenn die Sprachprobe und der Text in verschiedenen Sprachen sind. (abr)