cnt

Mit KI ein Übersetzungs­tool für Gebärdensprache entwickelt

Menschen mit Hör- und Sprachbeeinträchtigungen sind auf die Gebärdensprache angewiesen. Digitale Hilfsmittel zu deren Übersetzung gibt es jedoch kaum. Mit ihrer Projekt­arbeit liefern zwei Absolventen der OST Impulse für mehr barrierefreie Kommunikation.

Artikel erschienen in Swiss IT Magazine 2026/05

     

Für über 10’000 Menschen in der Schweiz ist die Gebärdensprache die Hauptsprache – sei es, weil sie gehörlos sind oder eine Hörbehinderung haben. Die Gebärdensprache erleichtert jedoch auch all jenen die Kommunikation, denen die gesprochene Sprache aus anderen Gründen schwerfällt.

Roger Merz ist Vater einer zehnjährigen Tochter. Das Mädchen hört und versteht einwandfrei, kann sich aufgrund einer Entwicklungsstörung aber nur begrenzt in der gesprochenen Sprache ausdrücken. Die Familie hat sich deshalb mit der Gebärdensprache vertraut gemacht und greift seither im Alltag ergänzend auf diese nonverbale Kommunika­tionsform zurück.


Dies sei auch die Motivation gewesen, sich im Rahmen einer Projektarbeit in der Weiterbildung an der OST vertieft mit der Materie auseinanderzusetzen, sagt Roger Merz. Zusammen mit Fabian Wipfli, ebenfalls Absolvent des CAS Machine Learning for Software Engineers, entwickelte er einen Prototyp eines digitalen Tools, das einzelne Gebärden über die Webcam erkennt und in Echtzeit eine schriftliche Übersetzung liefert.
OST stärkt Weiterbildung in AI Engineering
Roger Merz und Fabian Wipfli, die beiden Weiterbildungsabsolventen aus diesem Artikel, haben den CAS Machine Learning for Software Engineers an der OST – Ostschweizer Fachhochschule absolviert. Die umfangreichen Inhalte dieses Zertifikatskurses (Certificate of Advanced Studies) werden nun ausgebaut und auf drei neue Angebote verteilt: den CAS AI Solutions Engineering, den CAS AI Production Engineering und den CAS AI Model Engineering.

Je mehr Beispiele, desto zuverlässiger das Resultat

Die beiden Softwareingenieure evaluierten mehrere neuronale Netzwerkarchitekturen (LSTM, 1D-CNN, Transformer) und wählten daraus jenes Modell aus, das die besten Ergebnisse erzielte. Auf Basis dessen trainierten sie dann eine Künstliche Intelligenz mithilfe von Daten dahingehend, die Gebärden präzise den passenden Begriffen zuzuordnen. Dies klingt einfacher, als es ist. Denn damit ein System am Ende zuverlässig aussagen kann, ob nun die Gebärde für «Zahnbürste», für «Esel» oder für «aufwachen» gezeigt wird, muss es aus einer Vielzahl Beispielen lernen können. «Das neuro­nale Netzwerk funktioniert dabei ähnlich wie das menschliche Gehirn», erklärt Roger Merz.

Für das menschliche Gehirn wie auch für das neuronale Netzwerk gilt: Je öfter etwas geübt oder erlebt wird, desto besser werden wiederkehrende Muster erkannt, desto stärker festigt sich das Gelernte und desto zuverlässiger kann es abgerufen oder angewendet werden. Im Fall der Gebärden bedeutet das: Je mehr Beispiele ein und derselben Gebärde das System zu sehen bekommt, desto besser lernt es, die charakteristischen Merkmale dieser Gebärde herauszufiltern, sie von nebensächlichen Variationen verschiedener Personen oder Kamerawinkel zu unterscheiden und das zugrunde liegende Bewegungsmuster präzise einzuordnen.


Das Projektteam machte sich deshalb zuerst daran, genügend Daten zu beschaffen. Konkret handelte es sich bei diesen Daten um Videosequenzen, in denen eine Person eine bestimmte Gebärde ausführt. «Für ein optimales Training des neuronalen Netzwerks benötigten wir pro Gebärde 400 solcher Beispiele», erklärt Fabian Wipfli. Für die 20 Gebärden, auf die sich die Arbeit beschränkt, waren folglich 8000 Videosequenzen notwendig. Ein Drittel der Zeit wendeten Fabian Wipfli und Roger Merz auf, die Daten zu prüfen und bereitzustellen. Ein weiteres Drittel benötigten sie für das Training der KI und das restliche Drittel für die Implementierung mit der Kamera. Vom ursprünglichen Plan, das System auf die Deutschschweizer Gebärdensprache zu trainieren, mussten die beiden letztlich abweichen, da zu wenige Daten verfügbar waren. Also entschieden sie sich für einen Datensatz mit amerikanischer Gebärdensprache, der am meisten Samples bereithielt.

Als Lernsoftware oder für Alltagssituationen geeignet

Zusammen haben Fabian Wipfli und Roger Merz rund 300 Stunden ins Projekt investiert. Mit dem Resultat sind sie angesichts der kurzen Zeit zufrieden. «Wir haben erfolgreich einen Klassifikator erstellt, der die 20 isolierten Gebärden mit einer Genauigkeit von 92 Prozent erkennt», fasst Fabian Wipfli zusammen. Das System liesse sich beliebig mit zusätzlichen Gebärden erweitern. Es läuft im Moment auf Windows oder Linux, könnte aber auch für andere Plattformen erweitert werden.

Roger Merz und Fabian Wipfli haben sich in ihrer Projektarbeit auf das Übersetzungslevel Isolated Sign Language Recognition (ISLR) konzentriert. Dabei geht es um das Erkennen einzelner Gebärden, die nicht im Kontext eines Satzes stehen, sondern einzelne Wörter darstellen. Ihr Tool würde sich beispielsweise als Lernsoftware für Personen eignen, die die Gebärdensprache erlernen möchten.


Um live umfangreichere Gespräche oder auch Fernsehsendungen zu übersetzen, ist Continuous Sign Language Recognition (CSLR) notwendig, das auf die Übersetzung ganzer Texte ausgerichtet ist. «Ich rechne fest damit, dass man in naher Zukunft Gebärdensprache bidirektional übersetzen kann», sagt Roger Merz. «Die Umsetzung eines Systems, das nicht nur isolierte Gebärden, sondern ganze Texte übersetzen kann, ist jedoch um ein Vielfaches komplexer und erfordert entsprechend sehr viele Ressourcen. Diese Mittel und Möglichkeiten haben praktisch nur grosse Firmen mit grossem Budget – beispielsweise Google oder Apple.»

Herausforderungen mit KI lösen

Mit ihrer Projektarbeit haben die beiden Absolventen des CAS Machine Learning for Software Engineers dennoch eine solide Grundlage geschaffen, auf der andere Projektteams aufbauen können. Auch für ihre eigene Berufspraxis haben sie wertvolle Erkenntnisse gewonnen – sowohl aus der Projektarbeit als auch aus der Weiterbildung überhaupt. «Ich habe viele neue Werkzeuge und Ideen gewonnen, die mir dabei helfen, Softwareprobleme anders zu lösen als nur mit dem bisherigen Ansatz, explizite Regeln und Algorithmen auszuprogrammieren», sagt Fabian Wipfli, der als Software Engineer im Hypothekarbereich der Glarner Kantonalbank arbeitet. «Daten könnten beispielsweise genutzt werden, um KI-Lösungen zu trainieren, die Abläufe für Endkunden und Kundenberater spürbar vereinfachen.»


Roger Merz ist als Teamleiter in der IT tätig. Nebenbei arbeitet er für das Bildungslabor Smartfeld und führt Workshops rund um Informatik und Künstliche Intelligenz auf Primar- und Sekundarstufe durch. «Im CAS konnte ich mich bezüglich KI auf den neuesten Stand bringen», sagt er. «Das hilft mir dabei, zu erkennen, welche Probleme und Herausforderungen man mit Künstlicher Intelligenz lösen kann.»

Die Autorin


Ursula Ammann ist Mitarbeiterin Kommunikation und Marketing bei der Weiterbildungsorganisation der OST. Die Ostschweizer Fachhochschule bietet über 35 Weiterbildungen im Bereich Informatik an. Das Angebot wird fortlaufend weiterentwickelt und deckt Bereiche von Software Engineering über Artificial Intelligence bis hin zu AI-Driven Cybersecurity ab.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wie hiess im Märchen die Schwester von Hänsel?
GOLD SPONSOREN
SPONSOREN & PARTNER