Digitalisierung statt Outsourcing
Digitalisierung statt Outsourcing

Digitalisierung statt Outsourcing

(Quelle: Swiss Made Software)
2. März 2019 - Das Start-up Turicode setzt auf Machine Learning, um manuelles Abtippen zu ersetzen. Damit sieht sich das Unternehmen am KI-Cutting-Edge für seinen Bereich.
Artikel erschienen in IT Magazine 2019/03
"So manch einer versteht unter Digitalisierung das Outsourcing manueller Prozesse – vor allem in Niedriglohnländer", meint Martin Keller, Gründungsmitglied von Turicode. Davon halten er und seine Mitstreiter wenig und setzen stattdessen auf den Ersatz repetitiver, fehleranfälliger und vom Menschen durchgeführter Tätigkeiten durch Algorithmen. Konkret gemeint sind das Erfassen von Dokumenten, manuell oder via Copy&Paste, zum Beispiel bei Erfolgsrechnungen und Bestellungen, wo Menschen in mühsamer Kleinarbeit unstrukturierte in strukturierte Daten verwandeln.

Auch wenn der intellektuelle Aufwand zur Identifizierung von Produkt- oder Kontonummern überschaubar ist, ging es bisher eben doch nicht ohne ein Minimum menschlicher kognitiver Fähigkeiten – zumal dann, wenn die relevanten Dokumente nicht immer gleich strukturiert sind. Um dieses Problem zu lösen, setzt man bei Turicode auf Machine ­Learning sowie die hauseigene Programmiersprache DQL (Document Query ­Language).

Unstrukturierte Daten werden strukturiert

Das funktioniert wie folgt: Dokumente werden als PDF in das System geladen. Unabhängig ihrer Seitenanzahl, werden deren Inhalte (Text, Bilder) in ihre Einzelteile zerlegt. Mit Hilfe der DQL werden diese Inhaltsdaten von unstrukturierten in strukturiere Daten transformiert. Dafür kommen regelbasierte Algorithmen und Machine Learning zum Einsatz. Entscheidend für den Erfolg ist, sowohl die Struktur, ein sich änderndes Layout und den Kontext in die Analyse miteinzubeziehen.

Auf die so zerlegten Textinhalte werden anschliessend wieder spezialisierte Algorithmen angewandt. Durch Wiederholung werden sie trainiert, Daten wie Konto- oder Produktnummern zu identifizieren. Das geht weit über klassische Anwendungen wie OCR (Texterkennung) hinaus. "Im PDF kann man ja schon nach einzelnen Worten wie ‹Kontonummer› suchen mit der Volltextsuche. Bei uns kann man aber direkt, auf die relevante Kontonummer zugreifen", so Keller.

Darin unterscheidet sich die Lösung auch von regelbasierten Ansätzen. Befindet sich die Produktnummer beispielsweise immer an der gleichen Stelle auf dem Dokument, ist Machine Learning nicht nötig. Wichtig wird die neue Technologie allerdings, wenn die Dokumente häufig unterschiedlich strukturiert sind oder wenn es darum geht, eine sechsstellige Zahl von einer anderen sechsstelligen Zahl zu unterscheiden. "Ausser uns gibt es global nur zwei oder drei andere Unternehmen, im Bereich Datenextraktion aus Dokumenten", erklärt Keller.
 
Seite 1 von 2

Kommentare

Dienstag, 16. Juli 2019 Andy
Digitalisierung will, wie so oft bei Trend-Wörtern, im richtigen Kontext richtig verstanden und angewandt werden. Spannender Ansatz von Turicode.

Neuen Kommentar erfassen

Anti-Spam-Frage Wie hiess im Märchen die Schwester von Hänsel?
Antwort
Name
E-Mail
GOLD SPONSOREN
SPONSOREN & PARTNER