Bücher gegen Spam


Artikel erschienen in Swiss IT Magazine 2007/11

     

Um sich gegen Spam zu wehren, verwenden viele Webseiten sogenannte CAPTCHAs. Bei denen handelt es sich meist um Texte in Bildern, die abgeschrieben werden müssen. Wissenschaftler der Carnegie Mellon University wollen die CAPTCHAs nun nicht mehr nur zum Spam-Schutz, sondern auch zur Digitalisierung von Büchern benutzen. Und dies funktioniert so: Trifft ein OCR-Programm bei der Digitalisierung eines Buches auf ein Wort, das nicht identifiziert werden kann, wird es auf irgendwelchen Webseiten zusammen mit einem herkömmlichen CAPTCHA eingeblendet. Die Benutzer müssen dann beide Bilder abschreiben und erhalten wie gewohnt Zutritt zur Seite, während das nicht erkannte Wort aus dem Buch weiteren Nutzern vorgelegt wird, bis drei übereinstimmende Abschriften des Worts vorliegen. Dann gilt das Wort als erkannt und wird in den digitalisierten Buchtext eingesetzt. Auf diese Weise konnten bereits über 8000 Wörter digitalisiert werden. Wer mithelfen will, kann ReCAPTCHA (www.recaptcha.net) auf seiner eigenen Webseite einsetzen.




Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Was für Schuhe trug der gestiefelte Kater?
GOLD SPONSOREN
SPONSOREN & PARTNER