Transkription und Übersetzung in Echtzeit
Quelle: Microsoft

MS Group Transcribe

Transkription und Übersetzung in Echtzeit

Aus der Schmiede von Microsoft kommt die App Group ­Transcribe. Diese ist kostenlos erhältlich und erlaubt es, Vor-Ort-Meetings automatisch zu ­transkribieren, kann im Test aber noch nicht vollends überzeugen.

Artikel erschienen in Swiss IT Magazine 2021/07

     

Microsoft Garage, die experimentelle Tüftlerwerkstatt von Microsoft, hat eine neue App hervorgebracht, die sich Group Transcribe nennt. Diese kann Meetings und Unterhaltungen in Echtzeit automatisch transkribieren. Dabei haben die Entwickler auf künstliche Intelligenz und Sprachtechnologie gesetzt, anhand derer das Gesagte beispielsweise automatisch dem jeweiligen Sprecher zugeordnet wird. Anschliessend wird im Transkript angezeigt, wer was gesagt hat.

Ebenfalls erlaubt es die kostenlose App, das Gesprochene in Echtzeit in eine bevorzugte Sprache übersetzen zu lassen, wobei bereits zum Start hin 37 Sprachen für die Spracherkennung und für 82 verschiedenen Sprachregionen (z.B. Französisch – Schweiz) unterstützt werden (nein, Schweizerdeutsch ist leider nicht dabei).


Die App gibt es weltweit aktuell allerdings bislang nur für iOS, und Microsoft hat noch keinen Fahrplan dazu bekanntgegeben, wann Group Transcribe auch für andere Plattformen bereitsteht.

Eine weitere Einschränkung von Group Transcribe ist es, dass die App darauf ausgelegt ist, dass sich die Meeting-Teilnehmer am selben Ort aufhalten – das Ganze funktioniert also nicht für Video-Calls oder verteilte respektive Remote-Sitzungen, die aktuell (und wohl auch künftig) bei vielen Unternehmen an der Tagesordnung sind. Es bleibt also zu hoffen, dass die Funktionalität zukünftig dahingehend erweitert wird.

Am besten für kleine Gruppen

Der Start einer Sitzung passiert direkt aus der App heraus, wobei jeder Teilnehmer Group Transcribe auf seinem Gerät installiert haben muss und die Geräte dann untereinander vernetzt werden. Dies geschieht entweder via Bluetooth oder indem der QR-Code vom Gerät des Meeting-­Organisators ausgelesen wird. Leider ist die App bisher primär für Smartphones ausgelegt. Zwar kann sie auch auf einem iPad installiert werden, ist dann aber nur im Hochformat nutzbar, was nicht gerade benutzerfreundlich ist. Neben einer Android-Version ist also zu hoffen, dass Microsoft auch an alle Tablet-Nutzer denkt, sodass die App in Zukunft auch auf iPads und Android-Tablets vernünftig genutzt werden kann.

Zu begrüssen ist derweil, dass man sich nicht mit einem Konto anmelden muss, um die App zu nutzen – man muss nur einen Namen und eine bevorzugte Sprache angeben. Natürlich kann man sich aber auch mit seinem Microsoft-Konto anmelden, wodurch man beispielsweise gleich Zugriff auf alle hinterlegten Kontakte erhält.


Nach dem Start einer Sitzung muss jeder Teilnehmer das Mikrofon seines Telefons aktivieren und benutzen, um das Echtzeit-Transkript zu erstellen und dadurch auf Wunsch in seiner eigenen Muttersprache am Meeting teilzunehmen, während die App das gesprochene Wort in Text in der präferierten Sprache der anderen Teilnehmer umwandelt.

Microsoft schlägt vor, dass jede Person, die an der Besprechung teilnimmt, ihr eigenes Telefon «in Armreichweite» verwenden sollte, um «die höchste Qualität sicherzustellen.» Group Transcribe bringt zudem keine Begrenzung mit sich, wie viele Personen an einer Sitzung teilnehmen können. Gemäss Microsoft funktioniert die App aber am besten für kleinere Meetings mit bis zu vier Personen, was sich auch in unserem Test bewahrheitet hat. Sind zu viele Teilnehmer dabei, ist die Transkriptions-Engine schnell überfordert und hat besonders Schwierigkeiten damit, zu erkennen, wer gerade spricht.

Die App sendet die Daten an die Cloud, als Teil des Transkriptions- und Sprecher­iden­tifi­zie­rungsprozesses, aber die Nutzer haben die Wahl, ob sie die Meeting-Aufnahmen zur Verbesserung von Microsofts Spracherkennungstechnologien mit dem Unternehmen teilen möchten oder nicht. Ausserdem muss jeder in der Gruppe zugestimmt haben, die Aufnahme mit Microsoft zu teilen. Es handelt sich dabei also um eine Opt-in-Bedingung – ebenfalls ein Pluspunkt der App. Sollte man sich dafür entscheiden, werden die Aufnahmen und Transkripte durch Microsoft anonymisiert und in Schnipsel aufgeteilt, die dann an Gutachter verteilt werden. Allerdings macht Microsoft deutlich, dass tatsächlich Menschen an der Verarbeitung dieser Schnipsel beteiligt sein werden – man sollte sich also gut überlegen, ob und was genau man mit Microsoft teilen möchte.

Verbesserungspotenzial

Die App ist insgesamt simpel und aufgeräumt gestaltet und liefert genau das, was sie verspricht – aber auch nicht mehr. Am User Interface lässt sich nichts bemängeln. So sind alle Funktionen sofort ersichtlich und die App ist, ohne zu übertreiben, in fünf Sekunden einsatzbereit. Auch die Verbindung mit anderen Nutzern respektive Sitzungsteilnehmern klappt ohne Probleme und schnell.

In Sachen Funktionsumfang gibt es derweil Einiges, mit dem Microsoft die App noch aufrüsten könnte. Es braucht zum Beispiel unbedingt eine Stummschalttaste, sonst wird ein Husten oder ein Nebengespräch automatisch in Text umgewandelt. Auch eine Möglichkeit für Benutzer, eine schlechte Übersetzung zu korrigieren, fehlt leider.


Bei der Nutzung ist es interessant zu sehen, wie die App funktioniert: Haben zum Beispiel zwei Benutzer die App auf ihren Telefonen installiert und sich miteinander über Bluetooth verbunden, erscheint das Gesprochene zunächst in der App im Gesprächsfeld und wird dann in die ausgewählte Standardsprache der anderen Person übersetzt. Spricht man also beispielsweise auf Englisch und die andere Person auf Deutsch, bekommt man sowohl die Übersetzung als auch den Originaltext der anderen Seite zu sehen. Im Transkript ist dann alles ersichtlich.

Was die Spracherkennung betrifft, ist diese ziemlich gut – zumindest auf Deutsch und Englisch, den Sprachen, in denen wir testen konnten. Das Gesprochene wird im Test sofort als Englisch und Deutsch erkannt, und selbst wenn jemand abwechselnd Deutsch und Englisch spricht, kommt die App damit klar.

Die Übersetzungsgenauigkeit ist leider noch nicht ganz überzeugend. Sowohl bei der Übersetzung von Englisch nach Deutsch als auch von Deutsch nach Englisch funktioniert der Prozess im Grundsatz – sprich die Übersetzungen sind verständlich –, bei langen Sätzen wird es aber schnell ein wenig verwirrend. Ein Punkt, der es schwierig macht, die App für den Betrieb im geschäftlichen Bereich zu empfehlen, besonders wenn mehr als zwei Sprachen gesprochen werden und Sprachen dabei sind, für die Microsoft vielleicht noch keine ganz so robusten Übersetzungs- respektive Sprachmodelle hat. Hier gibt’s also noch Luft nach oben.

Grundsätzlich toll funktioniert hingegen die Erkennung der Sprecher, sprich die Zuweisung des Gesprochenen zum korrekten Redner. Aber: Man sollte Microsofts Worte in Erinnerung behalten, dass die App am besten lokal und im kleineren Rahmen funktioniert. Nehmen mehr als drei oder vier Personen an einer Diskussion teil, kann es des Öfteren vorkommen, dass die Sprecher-Attribution nicht zu 100 Prozent funktioniert. Das insbesondere dann, wenn mehrere Teilnehmer sich ins Wort fallen. Vielleicht kann man das aber auch als ein ungewolltes Feature betrachten, das für eine etwas geregeltere Gesprächskultur sorgt.

Microsoft Group Transcribe

Group Transcribe ist auf jeden Fall eine tolle App-Idee. Und Microsoft hat bei der Umsetzung vieles richtig gemacht, so dass man die Anwendung, sollte Bedarf bestehen, unbedingt ausprobieren sollte, zumal sie nichts kostet. Etwas seltsam und schade mutet aber die Notwendigkeit an, für Meetings im selben Raum zu sein, da Corona-bedingt aktuell – und wohl auch in den kommenden Monaten – fast jede Sitzung virtuell stattfindet. Sollten sich die Teilnehmer nicht nur lokal, sondern auch über die Cloud verbinden können, würde das den Nutzen von Group Transcribe noch einmal deutlich vergrössern.

Positiv
+ Sprecher-Attribution in Echtzeit
+ unterstützt 37 Sprachen
+ sehr gute Spracherkennung (D und E)


Negativ
- bislang nur für iOS verfügbar
- App nicht für Tablets optimiert
- Übersetzungen teils mangelhaft
- bislang nur für lokale Meetings gedacht

Hersteller/Anbieter
Microsoft

Preis
kostenlos

Wertung
Funktionalität 4 von 6 Sternen
Bedienung 6 von 6 Sternen
Preis/Leistung 6 von 6 Sternen
Gesamt 5 von 6 Sternen (swe)


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wieviele Fliegen erledigte das tapfere Schneiderlein auf einen Streich?
GOLD SPONSOREN
SPONSOREN & PARTNER