Digitalisierung statt Outsourcing

von Christian Walter, swiss made software

2. März 2019 - Das Start-up Turicode setzt auf Machine Learning, um manuelles Abtippen zu ersetzen. Damit sieht sich das Unternehmen am KI-Cutting-Edge für seinen Bereich.

"So manch einer versteht unter Digitalisierung das Outsourcing manueller Prozesse – vor allem in Niedriglohnländer", meint Martin Keller, Gründungsmitglied von Turicode. Davon halten er und seine Mitstreiter wenig und setzen stattdessen auf den Ersatz repetitiver, fehleranfälliger und vom Menschen durchgeführter Tätigkeiten durch Algorithmen. Konkret gemeint sind das Erfassen von Dokumenten, manuell oder via Copy&Paste, zum Beispiel bei Erfolgsrechnungen und Bestellungen, wo Menschen in mühsamer Kleinarbeit unstrukturierte in strukturierte Daten verwandeln.

Auch wenn der intellektuelle Aufwand zur Identifizierung von Produkt- oder Kontonummern überschaubar ist, ging es bisher eben doch nicht ohne ein Minimum menschlicher kognitiver Fähigkeiten – zumal dann, wenn die relevanten Dokumente nicht immer gleich strukturiert sind. Um dieses Problem zu lösen, setzt man bei Turicode auf Machine ­Learning sowie die hauseigene Programmiersprache DQL (Document Query ­Language).


Unstrukturierte Daten werden strukturiert

Das funktioniert wie folgt: Dokumente werden als PDF in das System geladen. Unabhängig ihrer Seitenanzahl, werden deren Inhalte (Text, Bilder) in ihre Einzelteile zerlegt. Mit Hilfe der DQL werden diese Inhaltsdaten von unstrukturierten in strukturiere Daten transformiert. Dafür kommen regelbasierte Algorithmen und Machine Learning zum Einsatz. Entscheidend für den Erfolg ist, sowohl die Struktur, ein sich änderndes Layout und den Kontext in die Analyse miteinzubeziehen.

Auf die so zerlegten Textinhalte werden anschliessend wieder spezialisierte Algorithmen angewandt. Durch Wiederholung werden sie trainiert, Daten wie Konto- oder Produktnummern zu identifizieren. Das geht weit über klassische Anwendungen wie OCR (Texterkennung) hinaus. "Im PDF kann man ja schon nach einzelnen Worten wie ‹Kontonummer› suchen mit der Volltextsuche. Bei uns kann man aber direkt, auf die relevante Kontonummer zugreifen", so Keller.

Darin unterscheidet sich die Lösung auch von regelbasierten Ansätzen. Befindet sich die Produktnummer beispielsweise immer an der gleichen Stelle auf dem Dokument, ist Machine Learning nicht nötig. Wichtig wird die neue Technologie allerdings, wenn die Dokumente häufig unterschiedlich strukturiert sind oder wenn es darum geht, eine sechsstellige Zahl von einer anderen sechsstelligen Zahl zu unterscheiden. "Ausser uns gibt es global nur zwei oder drei andere Unternehmen, im Bereich Datenextraktion aus Dokumenten", erklärt Keller.


Nur wenige Unternehmen global

OCR und regelbasierte Ansätze gehören dabei genauso zum Rüstzeug von Turicode. Doch der USP liegt eindeutig im Machine Learning. Vermehrt können die Kunden selbst integriert werden und ihr eigenes Machine-Learning-Model trainieren: Über ein Webinterface können sie die PDF-Komponenten selbstständig per Maus markieren und benamsen – Adresse, Produktnummer, Stückzahl, Beschreibung, und so weiter. Diese Vorgaben sind die Lernbasis für den Algorithmus, der sich durch diese Inputs weiterentwickelt. Die KI markiert anschliessend auf ungesehenen Dokumenten die relevanten Inhalte selbstständig. Sobald die Qualitätsanforderungen erfüllt werden, kann der Service im operativen Betrieb eingesetzt werden. Gemäss Keller kann das sehr schnell gehen. "Je nach Dokumententyp können wir in wenigen Tagen einen Service live schalten."

Die Lösung gibt es in der Cloud und On Premise. Gegründet wurde das Unternehmen 2016. Seit Ende 2017 ist Turicode am Markt und zählt inzwischen Versicherungen, Banken, Logistikfirmen, Immobiliendienstleister und Archive zu seinem Kundenstamm. Die Mitarbeiterzahl wuchs inzwischen auf 10 Personen und das Unternehmen sucht aktiv neue Mitarbeiter. Zurzeit fokussiert das Start-up noch auf den Schweizer Markt, hat aber die Internationalisierung klar auf der Roadmap.

Copyright by Swiss IT Media 2019