Suchmaschinenprimus
Google hat das OCR-Projekt OCRopus angekündigt. Das von Google gesponsorte Projekt hat das Ziel, die Texterkennungstechnologie voranzutreiben und ein hochqualitatives OCR-System zu entwickeln. Das OCRopus-Projekt wird von Professor Thomas Breuel vom Deutschen Forschungsinstitut für künstiliche Intelligenz in Kaiserslautern geleitet.
Wie im
Google Developer Blog berichtet wird, basiert die OCRopus-Engine auf verschiedenen Technologien: Zum einen handelt es sich dabei um ein Handschrifterkennungsverfahren, das Mitte der 90er Jahre vom US-Bundesamt für Statistik veröffentlicht wurde, zum anderen um eine neue hochkarätige Methode für die Layout-Analyse. Zudem soll auch die ursprünglich von HP entwickelte Open-Source-OCR-Enginge
Tesseract eingebunden werden.
Eine Technology Preview des Projekts wird unter der Apache-Lizenz auf der
OCRopus-Site zur Verfügung gestellt werden. Ein Alpha-Release wird auf das dritte Quartal in Aussicht gestellt.
(rd)