Ein enorm praktisches Werkzeug, welches die aktuelle Flut an kleinen und grossen KI-Lösungen mit sich gebracht hat, sind Transkriptions-Tools. Denn Audioaufnahmen direkt in Text übersetzen zu können, spart viel Zeit und ermöglicht weiterführende Prozessautomatisierung. Inhalte von Meetings können so etwa durchsuchbar gemacht werden und lassen sich von GenAI-Lösungen zusammenfassen oder direkt an weitere Tools übergeben. Auch in unserem Redaktionsalltag bieten Transkriptionsdienste wertvolle Zeitersparnis: Gesprochene Interviews können so automatisiert in Rohtext übertragen werden, mit denen wir Redakteure ohne Qualitätseinbussen weiterarbeiten können.
Nicht zuletzt, weil diese Lösungen für unseren eigenen Arbeitsalltag grossen Nutzen gezeigt haben, hat uns der Schweizer IT-Dienstleister und Software-Spezialist
Ti&m mit seiner neuen Lösung aufhorchen lassen. Mit dem Meeting Agent bietet das Unternehmen eine Schweizer Lösung für die Transkription (und weit darüber hinaus, dazu später mehr), die vor allem einen zentralen Pain Point adressiert, den wir als Journalisten in der Schweiz gut kennen: Der Transkriptions-Bot soll keine Probleme mit Schweizerdeutsch haben. Besonders unter Berücksichtigung der teils sehr unterschiedlichen Dialekte im Land keine Selbstverständlichkeit.
Die Testbedingungen
Eine der Lösungen, die wir intern teilweise nutzen und bei vielen Schweizer Unternehmen bereits lizenziert zur Verfügung steht, ist Microsofts eigenes Bordmittel – die Transkriptions-Funktion in Word. Diese versteckt sich hinter dem Menüpunkt «Diktieren» im Ribbon und erlaubt den Upload eines Audio-Files und dessen anschliessende Transkription. Auf Wunsch lässt sich das Ergebnis dann mit Zeitstempeln und Sprecher-Markierung exportieren.
Zum Testen haben wir von
Ti&m eine mit Word vergleichbare Lösung bekommen. Die Testoberfläche im Web erlaubt ebenfalls den Upload und die automatische Transkription. Und wie bei Word werden Zeitstempel und Sprecher markiert. Dazu gibt’s bei Ti&m noch eine kurze GenAI-Zusammenfassung, die ebenfalls gleich mit generiert wird. Dank unserem Arbeitsalltag haben wir praktischerweise mehr als genug Audio-Futter, um die Lösung von Ti&m gegen Word antreten zu lassen: Für den Test haben wir drei verschiedene, jeweils vier Minuten lange Audio-Samples aus Interviews verwendet. Eines in Berndeutsch, eines mit Bündner Dialekt und eines mit einem gebürtigen Walliser. Züri-Deutsch wird aufgrund der Herkunft des Autors respektive Interviewers ebenfalls mitgetestet.
Wie bereits angemerkt, gleichen sich die Nutzungserfahrung von Word und dem Meeting Agent recht stark. Beide erlauben den Upload von Audio-Files und geben die Transkription als Rohtext aus. Bei beiden Lösungen sind Timestamps und die Markierung der Sprecher mit an Bord. Und beide Lösungen haben ihre Aufgabe in unserem Test in vergleichbarer Zeit gelöst: Für die einzelnen Vier-Minuten-Snippets brauchten sowohl der Meeting Agent als auch Word jeweils knapp 20 Sekunden inklusive Upload.
Word erlaubt dabei den Upload der Audio-Formate WAV, MP4, M4A und MP3, der Meeting Agent unterstützt WAV, MP3 und FLAC. Bei Word können mit einer regulären Business-Lizenz für M365 so 300 Minuten Audiomaterial monatlich transkribiert werden. Bei Ti&m ist die Sache etwas komplizierter.
Entscheidende Unterschiede
An dieser Stelle ist es wichtig, eine klare Abgrenzung zwischen den beiden Lösungen zu machen. Die Word-Funktion ist die naheliegendste Lösung für die Transkriptions-Aufgabe, da sie bei vielen Unternehmen wie erwähnt ohnehin schon lizenziert ist. Bei der Lösung von
Ti&m handelt es sich derweil um ein Modul einer potenziell grösseren Lösung.
Laut Ti&m wird der Meeting Agent meist nach den Bedürfnissen des Kunden in dessen Umgebung integriert und kann je nach gewählten Modulen deutlich mehr als nur transkribieren. Der Agent soll auf Basis bestehender Informationen etwa auch Meetings vorbereiten und Informationen aus der Transkription des Meetings an weitere Anwendungen übergeben können. Möglich sind damit beispielsweise automatisierte Notizen im CRM oder das Erstellen von To-Dos und Kalendereinträgen nach Meetings.
Während die Kosten für Word damit einfach kalkulierbar respektive eh schon Teil des IT-Budgets sind, ist es beim Meeting Agent wie angemerkt komplizierter. Auf Anfrage sagt das Unternehmen, dass die Integrationen aufgrund verschiedener Kundenwünsche unterschiedlich ausfallen (und damit unterschiedliche Kosten verursachen). Eine genaue Preisangabe ist daher nur individuell auf Anfrage möglich, das Tool ist nicht als einfache SaaS-Abo-Lösung zu haben. Die getestete Minimal-Integration wäre aber grundsätzlich zu haben und laut Hersteller in wenigen Tagen – sprich mit überschaubaren Kosten – beim Kunden integriert. Wenn man bereits Microsoft-Kunde ist, fährt man so oder so günstiger mit Word. Andererseits bietet die Custom-Integration je nach Use Case grosse Vorteile, die mit dem einfachen Funktionsumfang im Test nicht abgedeckt werden können.
Zwecks Vergleichbarkeit ist die zentrale Frage, die der vorliegende Test beantworten soll, folgende: Ist das Schweizerdeutsch der Ti&m-Lösung wirklich so viel besser? Und in Folge eröffnet sich damit die Zusatzfrage, ob es sich lohnt, dafür höhere Kosten und den Integrationsaufwand in Kauf zu nehmen.
Words Nemesis: Berner und Bündner
Kurz zur Usability: Sowohl bei Word als auch beim Meeting Agent stiessen wir im Praxistest nie auf Probleme oder Bugs bei der Nutzung. Beide Anwendungen bewältigen ihre Aufgabe benutzerfreundlich und mit kurzen Verarbeitungszeiten.
Qualitativ unterscheiden sich die Ergebnisse aber massiv. Besonders beim Berner und Bündner Dialekt lieferte Word teilweise komplett unbrauchbare Textpassagen ab, aus denen man auch mit Kontextwissen die tatsächliche Bedeutung kaum herauslesen kann. Das wiederum zieht einen Rattenschwanz nach sich: Kleine grammatikalische oder inhaltliche Fehler sind für die Weiterverarbeitung selten tragend. Komplett sinnlose Transkriptionen verunmöglichen das Weiterarbeiten mit dem Text hingegen komplett.
Der Meeting Agent macht zwar vereinzelt auch solche Fehler, ist im Vergleich aber meilenweit voraus und interpretiert teils auch sehr komplizierte Passagen mit eingeschobenen Sätzen korrekt. Auffällig ist auch, dass Word das gesprochene Wort sehr genau nimmt und eins zu eins niederschreibt – Fluch und Segen zugleich. Bekanntermassen sprechen viele Menschen jedoch nicht druckfertig, machen Pausen und wiederholen teils ganze Halbsätze. Und das wird von Word eben direkt übernommen. Der Meeting Agent kürzt derweil und versucht trotz Gestammel und Pausen, korrekte Sätze zu bauen. Beispiele dafür finden sich in der grossen Best-of-Tabelle.
(Quelle: Swiss IT Magazine)
(Fast) Gleichstand in Zürich und im Wallis
Spürbar besser arbeitet Word mit Sprechern aus Zürich und dem Wallis. Während der Meeting Agent hier weiter stabil performte, finden sich bei Word deutlich weniger krasse Schnitzer als beim Berner und Bündner Mundart. Gemessen am Ruf des Walliser Dialektes, der zuweilen auch anderen Deutschschweizern Kopfzerbrechen bescheren kann, ist das erstaunlich. Beim Zürcher Dialekt, der dem Hochdeutschen sowohl sprachlich als auch geografisch nähersteht, ergibt dieses Ergebnis mehr Sinn.
Aber auch bei diesen beiden Dialekten leistet sich Word insgesamt Fehler, die schwerer wiegen. In den meisten Fällen macht das Word-Output die weitere Arbeit mit dem Text zwar möglich, die Ergebnisse beeindrucken aber selten.
Lohnenswert bei reger Nutzung
Wer regelmässig inhaltlich korrekte Transkriptionen von Schweizerdeutsch sprechenden Personen braucht, sollte den
Ti&m Meeting Agent definitiv in Betracht ziehen. Das Unternehmen bietet für interessierte Kunden eine mit unserer Testumgebung vergleichbare Lösung, mit der man reinschnuppern kann, und berät auf Anfrage zu den Kosten, die für die individuelle Integration entstehen. Rechnen dürften sich die Kosten bei reger Nutzung aber recht schnell, denn die Ergebnisse sind grösstenteils beeindruckend.
Word ist derweil die kostengünstige Variante für Unternehmen, die ohnehin schon M365-Abos bezahlen. Wirklich empfehlenswert ist es aber nur bedingt, in einzelnen Fällen ist die Qualität der Transkription hier zu schwach. Für die Transkribieren-Funktion muss man sich Word also definitiv nicht gesondert zulegen.
Wichtig anzumerken ist noch ein letzter Punkt: Wir haben anfangs auch das Online-Tool Turboscribe mitgetestet. Schon nach kurzer Zeit war die Ähnlichkeit mit den Ergebnissen des Meeting Agents so auffällig, dass wir es ausgeklammert haben.
Der Grund für die Ähnlichkeit: Beide Lösungen nutzen das Spracherkennungsmodell Whisper, das als Open-Source-Lösung verfügbar ist und offenbar bemerkenswert gut Schweizerdeutsch kann. Turboscribe ist damit ebenfalls ein guter Weg, um an bessere Schweizerdeutsch-Transkriptionen zu gelangen, als sie Word bietet. Wichtig anzumerken ist aber auch, das Turboscribe von einer US-Firma entwickelt wird und im Gegensatz zu Ti&m kein Hosting auf Servern in der Schweiz und kein Customizing wie Ti&m anbietet. Die Free-Version ist stark eingeschränkt, die beiden Premium-Abos schlagen mit 10 oder 20 Dollar monatlich zu Buche.
(win)
(Quelle: Swiss IT Magazine)