Schönheitskönigin mit Köpfchen

Das PDF-Format kann mehr als Dokumente originalgetreu anzeigen: Mit erweitertem XML-Support will Adobe der kommenden Microsoft-Formularumgebung Infopath Paroli bieten.

Artikel erschienen in Swiss IT Magazine 2003/19

     

Es gibt zwei De-facto-Standards für elektronisch erfasste Dokumente: das allgegenwärtige Microsoft-Word-Format und das PDF-Format von Adobe. Während Word-Dokumente sowohl für die aktuelle Bearbeitung als auch für Archivzwecke genutzt werden, dienen PDF-Dokumente zumindest auf den ersten Blick vor allem der langfristigen Speicherung von Inhalten. Laut Adobe sind allein im öffentlich zugänglichen Web heute über 20 Millionen PDF-Dateien verfügbar; firmeneigene Archive dürften ein Vielfaches davon beherbergen.


Papier ist immer noch Trumpf

Dutzende von Dokumenten-Management-Systemen und millionenschwere Anstrengungen von IT-Abteilungen haben es bisher in den wenigsten Fällen geschafft, unternehmensweit alle dokumentenzentrierten Prozesse mit elektronischer Unterstützung ablaufen zu lassen - kurz: Wir sind vom papierlosen Büro weiter entfernt denn je.



Und dies, obwohl eigentlich alles für die Abkehr von der zellstoffbasierten Dokumentenwirtschaft spricht - so hat zum Beispiel eine PWC-Studie festgestellt, dass zur Pflege von einem Dutzend Aktenschränken jeweils ein Mitarbeiter eingestellt werden muss. Ganz zu schweigen vom Umweltaspekt: Produktion und Transport des Papiers brauchen Energie und verschmutzen Luft und Gewässer.




Ein elektronisches Archiv braucht weniger Platz und bietet ein enormes Automatisierungs- und Rationalisierungspotential. Überdies sinken die Kosten für Speicherkapazität stetig - hohe Storage-Preise sind kein Grund, weiter auf Papier zu beharren.



Forrester Research nennt drei Gründe, wieso die IT-basierte Dokumentenverwaltung bisher trotzdem eine geringe Breitenwirkung hatte:




Mieser Output: Ausgerechnet die Systeme mit den wichtigsten unternehmenskritischen Informationen wie Fakturierung und Einkauf liefern die dürftigste Output-Qualität - Forrester spricht von "niedriger Auflösung und lobotomisierter Thin-Client-Funktionalität". Es sei schon fast ein Triumph, wenn Online-Berichte und -Formulare qualitativ dem Papier gleichkommen.




Insellösungen: Statt einer unternehmensweiten Document-Management-Strategie nachzukommen, pflegt jede Abteilung ihr eigenes Gärtchen. Das macht die übergreifende Automatisierung schwierig, und die Synergie, die ein elektronisches Archiv eigentlich bringen sollte, findet nicht statt.




Proprietäre Systeme: Selbst wenn eine Strategie für den Umgang mit Dokumenten vorliegt, harzt es mit der Umsetzung. Die Integration der beteiligten Legacy-Systeme mit proprietärer Technologie ist ein kostspieliges und zeitintensives Unterfangen und wird oft gar nicht erst versucht.



Ein vierter Grund für die nachhaltige Dominanz des Papiers: die Bequemlichkeit. Der Umgang mit elektronischen Dokumenten, die für einen bestimmten Arbeitsablauf zwischen verschiedenen Softwaresystemen hin- und herbewegt und dabei in unterschiedliche Formate mit entsprechendem Verlust der ursprünglichen Präsentationsqualität konvertiert werden müssen, ist ohne vollumfängliche Integration aller beteiligten Anwendungen viel zu kompliziert. Es ist zum Beispiel oft einfacher, ein Dokument rasch auszudrucken und ins Faxgerät zu legen, als es direkt aus einem elektronischen Archiv zu versenden.


PDF als Archivierungsstandard

"Die Industrie braucht dringend ein Verfahren, um Dokumente über viele verschiedene Rechnerkonfigurationen, Betriebssysteme und Kommunikationsnetzwerke hinweg auszutauschen." So begründete der damalige Adobe-Chef Warnock 1992 sein firmenintern anfangs umstrittenes "Camelot"-Projekt, das schliesslich ins heutige PDF-Format mündete.



PDF ist in zwei Bereichen schon seit Jahren Usus: Für die plattformunabhängige Dokumentenpräsentation im Web und für die Druckvorstufe ist PDF der De-facto-Standard. PDF-Erfinder Adobe positioniert sein Universalformat auch als optimal für Archivzwecke und bringt folgende Gründe vor:





Originalgetreue Darstellung und Integrität: Dokumente verlieren an Wert, wenn das Layout oder der optische Eindruck verändert werden. Im juristischen Zusammenhang ist die exakte Übereinstimmung mit der "Urschrift" oft Voraussetzung für die rechtsverbindliche Kommunikation. PDF-Dokumente, so Adobe, garantieren sowohl bei der Online-Betrachtung als auch im Printout ein mit dem Original identisches Erscheinungsbild. Dieses Argument ist stichhaltig - PDF ist das einzige namhaft verbreitete Dateiformat, das ein plattform- und anwendungsunabhängig einheitliches Erscheinungsbild inklusive aller Schriftarten ermöglicht. Neue Entwicklungen wie FlashPaper von Macromedia dürften zwar einzelne Anwender interessieren; das PDF-Format ist aber so weit verbreitet, dass Adobe aus dieser Ecke kaum Gefahr droht.




Einfache Implementation: PDF-Dokumente können aus beliebigen Quellen stammen; Adobe nennt insbesondere eingescannte Papierdokumente, elektronische Dateien und Webseiten. Zur Umwandlung ins PDF-Format existieren neben der Adobe-eigenen Acrobat-Linie zahlreiche Produkte von Drittherstellern - siehe Tabelle. Das gemeinsame Merkmal: Die PDF-Erstellung ist gewissermassen ein Druckvorgang mit Ausgabe als Datei statt auf Papier. Demzufolge lassen sich PDF-Dateien aus allen Anwendungen erstellen, die das Drucken erlauben. Einmal erstellt, lassen sich die PDF-Dateien im Filesystem oder beliebigen Dokumenten-Management-Applikationen speichern und über den kostenlosen Adobe Reader einsehen und ausdrucken, der für eine Vielzahl von Systemplattformen von Windows über Unix bis zu Pocket PC, PalmOS und Symbian zur Verfügung steht.




Offenes Format: PDF ist zwar kein Standard nach ANSI oder ISO, aber Adobe hat das Format schon lange publiziert - über 1800 Hersteller bieten Produkte mit integrierten PDF-Funktionen an. Für besondere Bereiche existieren auch schon offizielle Standards wie PDF/X (ISO-Norm in der Druckvorstufe). Die AIIM (Association for Information and Image Management), ein Verband der Document-Management-Industrie, arbeitet einen ISO-Standard für PDF mit besonderem Augenmerk auf die Archivierung aus; PDF/A ist derzeit in der fünften Draft-Revision.




Sicherheit: PDF-Dokumente lassen sich mit Passwort oder digitaler Unterschrift schützen und verschlüsseln. Dabei sind je nach dem für die Erzeugung verwendeten Tool Schlüssel bis zu 128 Bit Länge möglich. Der Verfasser kann zudem festlegen, ob das Dokument gedruckt oder nur angesehen werden kann, und er kann angeben, dass sich keine Inhalte per Copy &Paste in andere Anwendungen übernehmen lassen. Hier bietet PDF klar mehr als der einfache Passwortschutz von Office - im Moment noch: Die umfassenden Information-Rights-Management-Anstrengungen von Microsoft, die zum ersten Mal im neuen Office 2003 implementiert sind, könnten künftig den Security-Vorteil von PDF zum Verschwinden bringen.



Eine Bemerkung am Rande: Das Dateiformat heisst PDF, die von Adobe angebotenen Tools zu dessen Verarbeitung heissen Acrobat. Um die häufige Verwechslung der beiden Begriffe zu vermeiden, nennt Adobe die neueste Version 6 des hauseigenen PDF-Betrachters nun nicht mehr Acrobat Reader, sondern Adobe Reader. Ob das etwas bringt oder die Verwirrung zusätzlich steigert, bleibt abzuwarten.


Volltext oder strukturiert?

Die IT unterscheidet zwischen unstrukturierten Informationen wie Notizen oder dem Text eines Briefs oder Romans und strukturierten Daten wie dem Inhalt von Spreadsheets, Datenbanken und Formularen. Für jede Variante sind separate IT-Systeme zuständig: Textverarbeitungsprogramme hier, Datenbanken dort.



Document-Management-Systeme (DMS) kümmern sich traditionell um Dateien mit unstrukturierten Daten, denen sie durch zusätzliche strukturierte Informationen wie Schlagworte, Kategorisierungen sowie Entstehungs- und Verarbeitungsvermerke eine Struktur verpassen. Der Hauptzweck dieser Metadaten: Die im unstrukturierten Dokument enthaltenen Informationen werden besser auffindbar, womit sich ihr Nutzen beträchtlich erhöht.




Ein Beispiel: Sucht man im Volltext nach "Marienkäfer", findet man entsprechende Dokumente nur in Deutsch. Textstellen in Englisch ("ladybird") oder in zoologischer Terminologie ("coccinellidae") bleiben aussen vor. Ein korrekt verschlagwortetes Dokument wird hingegen mit jedem der drei Begriffe gefunden.



Die herkömmlichen Dateiformate sehen allerdings nicht vor, dass die Metadaten zusammen mit dem Inhalt im selben Dokument gespeichert werden - allenfalls enthält ein Dokument neben den schon vom Filesystem abgedeckten Angaben wie Datum und Zeit der Erstellung und letzten Änderung noch den Namen des Autors und einige nach Gutdünken des Autors eingefügte Stichworte.



Weitergehende Informationen werden vom DMS in einer separaten Datenbank geführt. Dazu gehören zum Beispiel Stichworte, die einer vorgegebenen Taxonomie entsprechen, oder Workflow-Informationen, die für den Austausch des Dokuments zwischen verschiedenen Anwendungen benötigt werden.



Das Problem liegt auf der Hand: Dokument und Metadaten sind getrennt; sobald das Dokument aus dem Kontext des DMS entfernt wird, sind die Metadaten "verloren" - sie lassen sich in andern Umgebungen nicht mehr nutzen.




XML macht's möglich

Die XML-Technologie soll nun Schluss mit proprietären Lösungen zur Haltung von Metadaten machen. Sowohl die neuen Office-Dateiformate von Microsoft als auch die mit Acrobat 6 eingeführte XML-Unterstützung in PDF-Dokumenten erlauben, dass die unstrukturierten Text- und Bilddaten im gleichen Dokument gespeichert werden wie die strukturierten Metainformationen.



Die Struktur der Metadaten - welche XML-Tags haben welche Bedeutung - wird in externen, allgemein gültigen XML-Schema-Dateien definiert: Damit XML Sinn macht, müssen die beteiligten Anwendungen XML-Schemas lesen und interpretieren können.




Strukturierte Informationen lassen sich seit einiger Zeit in PDF-Dateien erfassen - PDF-Formulare, die online ausgefüllt werden können, gibt es seit Acrobat 3. Zur Weiterverarbeitung der eingegebenen Daten musste bisher für jedes Formular auf der Serverseite ein individuelles Programm in Perl, PHP oder einer anderen Sprache erstellt werden.



Erst die neueste Acrobat-Version 6 erlaubt, beliebige XML-Schemas einzulesen und so die PDF-interne Struktur einer XML-Instanz zuzuordnen, die auch von allen anderen Anwendungen verstanden wird, die dasselbe XML-Schema kennen. Die Schönheitskönigin PDF, bisher vor allem durch die plattformunabhängige Originaltreue bekannt, macht mit dem XML-Support nun einen Intelligenzsprung.




Adobes Intelligent Document Architecture

Die Grundidee stammt natürlich nicht von Adobe - auch andere Hersteller, allen voran Microsoft mit Infopath und Xerox mit den Smart Documents, propagieren das intelligente Dokument mit kombinierten Inhalts- und Metadaten. Dabei folgen sie einer Erkenntnis der Meta Group: "IT-Unternehmen beginnen, die Nachteile einer Trennung von strukturierten Transaktionsdaten und dokumentenbasierten Prozessen zu erkennen." Forrester Research spricht auch vom "Networked Document", dessen wichtigste Eigenschaft eine bidirektionale Schnittstelle zu den Unternehmensprozessen bilde - und die wird üblicherweise per XML realisiert.



Um das Konzept in die Praxis umzusetzen, bietet Adobe neben den elementaren Formular-Tools in Acrobat Professional eine ganze Enterprise-Produktpalette an. Die wichtigsten Elemente der "Intelligent Document Architecture":





• Der Adobe Forms Designer erlaubt die Gestaltung von interaktiven, XML-basierten Formularen im HTML- und PDF-Format. Die Werkzeuge sind wesentlich einfacher zu bedienen als das etwas sperrige Formular-Toolset von Acrobat. Ausserdem lassen sich Feldvalidierungen und andere Script-basierte Prozesse auf Client-Seite sowie die Anbindung an externe Datenquellen bequem per Point&Click festlegen - in Acrobat müssen dazu JavaScript-Befehle über ein ziemlich mühsames Interface eingegeben werden.




• Der Adobe Form Server stellt Formularfunktionen auf der Back-end-Seite bereit, darunter die automatische Aufbereitung eines XML-Formulars für unterschiedliche Clients: Als HTML-Seite für gängige Web- und Mobile-Browser, als PDF-Dokument oder in diversen Desktop-Formaten. Der Form Server erlaubt zudem die Einbindung von Entrust- und SmartTrust-Zertifikaten.




Im Zentrum stehen allerdings die Document Server for Reader Extensions. Sie werden auf dem Server installiert, auf dem die PDF-Formulare liegen. Beim Abruf eines Formulars setzen die Extensions in der PDF-Datei bestimmte Benutzerrechte, die versteckte Funktionen des Readers aktivieren: Im Gegensatz zur Acrobat-Vollversion erlaubt der Reader normalerweise zwar das Ausfüllen und Drucken eines PDF-Formulars, nicht aber die Speicherung der eingegebenen Daten. Mit den Extensions, die auf Windows- oder Solaris-Servern laufen, wird die Speicherung nun möglich - der kostenlose Reader ab Version 5.1 wird so zum universellen Formular-Ausfüllwerkzeug.


PDF fürs Archiv vorbereiten

Archivierte PDF-Dateien sollen langfristig nutzbar bleiben. Dazu empfiehlt Adobe, schon beim Erstellen einige Punkte zu beachten:




• Alle Schriften ins Dokument einbinden: Damit bleibt das ursprüngliche Erscheinungsbild erhalten, auch wenn eine im Dokument benutzte Schrift auf dem Zielsystem nicht vorhanden ist. Allerdings steigt der Speicherbedarf leicht, was sich vor allem bei kurzen Dokumenten bemerkbar macht.





• Metadaten festlegen und erfassen: Es sollte genau definiert und in einer unternehmensweit gültigen Richtlinie vorgeschrieben sein, welche Zusatzangaben wie Themenbereich und Stichworte vom Autor erfasst werden müssen. Das erleichtert die spätere Suche nach einem bestimmten Dokument erheblich.




• Geschützte Dokumente vermeiden: Was bei Geschäftstransaktionen Nutzen bringt, ist im Archiv tödlich: Dokumente sollten allgemein zugänglich sein und demnach nicht mit Passwort geschützt werden. Sensitive Informationen werden mit Vorteil nicht durch den PDF-eigenen Passwortschutz, sondern über das Berechtigungssystem der Dokumentenmanagement-Applikation geschützt.




• Keinen Code einbetten: Neuere Acrobat-Versionen erlauben es, Dokumente mit ausführbarem Code zu ergänzen, zum Beispiel mit JavaScripts, deren langfristige Gültigkeit jedoch nicht gewährleistet ist.




• Verknüpfungsmethode standardisieren: Oft werden PDF-Dokumente per Hyperlink untereinander verknüpft. Dabei sollte unternehmensweit eine einheitliche Methode zum Einsatz kommen - zum Beispiel relative Verknüpfungen, wenn alle Dateien gemeinsam ins gleiche Archiv gestellt werden.


E-Government mit PDF-Formularen

Allein im Kanton Zürich existieren über 1350 Formulare für den Amtsverkehr sowohl zwischen Gemeinden und kantonalen Amtsstellen als auch im Dialog der öffentlichen Hand mit dem Bürger und der Wirtschaft.



Druck, Distribution, Lagerung und Entsorgung sind teuer: Man rechnet für jedes Papierformular mit Gesamtkosten von sage und schreibe 79 Franken; vom umständlichen Umgang mit dem Papier ganz zu schweigen. Grund genug für die zuständige Drucksachen- und Materialzentrale des Kantons Zürich (KDMZ), an Alternativen zu denken.




Die KDMZ hat deshalb einen E-Formular-Service für den Kanton Zürich realisiert. Der Dienst basiert auf interaktiven PDF-Formularen; für den Workflow kommen Acrobat und die Document Server for Reader Extensions zum Einsatz. Der "Kunde" kann die Formulare mit dem kostenlosen Adobe Reader betrachten, ausfüllen und per E-Mail an die zuständige Stelle zurücksenden. Für die Öffentlichkeit sind derzeit Formulare wie Lohnausweis, Baugesuch und Mietzinsformular erhältlich.



Die KDMZ treibt die E-Formularwirtschaft aktiv voran: Das Design-Team gestaltet die Formulare samt Eingabehilfen und Plausibilitätsprüfungen nach den Vorgaben des auftraggebenden Amtes; ein neues Formular ist in der Regel in einem Tag erstellt. KDMZ-Geschäftsleiter Kurt Stoppacher: "Unser Hauptziel war es, die Distanz des Kantons zu seinen Kunden zu verringern." Die Wahl der technischen Plattform fiel laut Stoppacher auf die Adobe-Lösung, weil diese auch künftige Entwicklungen wie digitale Unterschrift oder die Einbindung in automatisierte Workflow-Systeme ermöglicht.



Die Einführung von derzeit 60 PDF-Formularen zeigt bereits messbare Vorteile. Die Kosten pro Formularvorgang konnten um 48 Prozent reduziert werden, die Bearbeitungszeit sinkt auf ein Fünftel - nicht zuletzt, weil ein elektronisch ausgefülltes Formular leichter lesbar ist und die Eingabefehler durch die Plausibilitätsprüfungen weitgehend ausgemerzt sind. Ausserdem sind elektronische Formulare rund um die Uhr verfügbar und immer aktuell - der bisherige Ausschuss an veralteten Formularen von knapp 30 Prozent fällt völlig weg.




PDF-Informationen im Web

Neben der Website von Adobe und anderen Herstellern von PDF-Tools bieten verschiedene Online-Communities weiterführende Informationen rund um PDF, den Einsatz des Formats und passende Software. Die wichtigsten Adressen:



www.pdf-worker.de: Aktuelle Infos, Tool-Verzeichnis mit redaktionellen Bewertungen




www.pdfzone.com: News, Tips und Techniken, Tool-Verzeichnis (nicht ganz aktuell)



www.planetpdf.com: News, Weblog, Tips, PDF-Developer-Info, aktuelle Tool-Datenbank



www.prepress.ch: Die Schweizer PDF-Autorität Stephan Jaeggi mit News, nützlichen Tips vor allem fürs Prepress-Umfeld und Berichten von Ausstellungen, Konferenzen etc.



PDF-Editoren im Überblick



Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Aus welcher Stadt stammten die Bremer Stadtmusikanten?
GOLD SPONSOREN
SPONSOREN & PARTNER