Was digitale Archivierung und Digital Intelligence leisten

Wer digitale Unterlagen lediglich speichert, sichert damit weder ihren Evidenzwert noch ihren Informationswert. Um ein digitales Gedächtnis zu schaffen, müssen verschiedene Disziplinen nahtlos ineinandergreifen. So können Organisationen aktive Wissensinfrastrukturen gestalten und aus ihren Dateien nutzbare Informationen machen.

Artikel erschienen in Swiss IT Magazine 2026/05

Swiss IT Magazine bei
Google bevorzugen

Daten sind das neue Öl – der oft zitierte Satz suggeriert, Information liege in Unternehmen oder Verwaltungen strukturiert und maschinenlesbar vor. Wer dann genauer hinschaut, findet aber meist keine Datenbanken, sondern Dateien: Präsentationen, PDFs, E-Mails, Verträge, Protokolle, Berichte. Gespeichert ohne Kontext, ohne Bezüge, ohne maschinenlesbare Struktur. Langfristig sind diese Dokumente weder auffindbar noch interpretierbar noch auswertbar. Digitale Archivierung und Digital Intelligence setzen genau hier an: Sie machen aus kontextlosen Dateien nutzbare Information.

Das Dokument als blinder Fleck der IT

Dateien werden auf Dateiservern, in Dokumentenmanagement-Systemen oder Kollaborationsplattformen abgelegt. Das sind Umgebungen, die weder die Integrität der Dateien nachweisen noch in den meisten Fällen ihre Veränderungsgeschichte dokumentieren. Ob ein Dokument seit seiner Erstellung unverändert geblieben ist, lässt sich in einer gewöhnlichen Dateiablage nicht belegen. Metadaten fehlen oder beschränken sich auf das, was das Betriebssystem automatisch erzeugt: Dateityp, Änderungsdatum, Grösse. Nichts davon sagt etwas über den Inhalt.

Der Umgang mit Dateien hängt deshalb fast vollständig an organisatorischen Vorkehrungen. GEVER-Programme und Records-Management-Weisungen definieren, wie Dokumente abgelegt, benannt und wie lange sie aufbewahrt werden sollen. In der Praxis steht und fällt die Qualität dann mit der Kompetenz und dem Willen der einzelnen Mitarbeitenden. Wer Dokumente ohne Dossierbezug auf einem Laufwerk speichert, erzeugt Dateien, die zwar technisch vorhanden, aber nicht weiter verwertbar sind – nicht abfragbar, nicht zuordenbar, nicht auswertbar.

Das hat mit dem Kontextproblem zu tun. Eine E-Mail mit dem Text «Ja, bewilligt» mag als Datei vollständig erhalten sein. Trotzdem ist sie wertlos, wenn unbekannt ist: Wer hat sie geschrieben? An wen? In welchem Zusammenhang und auf welcher rechtlichen Basis? Ohne diese Einbettung ist das Dokument nicht interpretierbar, weder heute noch in zehn Jahren. Kollaborationsplattformen wie Microsoft Teams verschärfen das: Sie erzeugen Tausende von Nachrichten und Dateien, die ausserhalb ihres Entstehungskontexts keine eigenständige Bedeutung haben. Wer nur Dateien archiviert, friert Buchstaben ein – nicht Information.

Digitale Langzeitarchivierung: Mehr als ein Archivserver

In der IT-Welt wird Archivierung oft auf langfristige Speicherung reduziert. Dateien werden ausgelagert, komprimiert oder auf günstigen Speichermedien abgelegt. Doch ein Archiv ist mehr als ein technischer Ablageort. Entscheidend ist, ob der Kontext eines Dokuments dauerhaft gesichert bleibt.

Ein digitales Archiv nach dem Referenzmodell OAIS (Open Archival Information System, ISO 14721) speichert deshalb nicht nur Dateien, sondern Informationspakete. Es übernimmt die Dateien zusammen mit Metadaten, Provenienzangaben, Identifikatoren und technischen Spezifikationen, die ihre spätere Lesbarkeit und Interpretierbarkeit sichern. OAIS bezeichnet diese Informationen als Repräsentationsinformation (Representation Information). Hinzu kommen Verfahren zur Integritätsüberwachung, Formatmigration für die langfristige Lesbarkeit und standardisierte Speicherlayouts wie OCFL (Oxford Common File Layout).

Das ist archivfachliches Kernwissen, das in der Softwareentwicklung oft fehlt. Archivarinnen und Archivare wissen seit Jahrhunderten: Ein Dokument ohne seinen Entstehungskontext verliert seinen Evidenzwert, also seinen Wert als Nachweis eines Handelns, und damit auch einen Teil seiner Interpretierbarkeit. Moderne Archivsoftware übersetzt dieses Wissen in technische Strukturen mit kontrollierten Metadatenschemata, Normdaten und Verzeichnungsstrukturen, die nicht nur das Dokument, sondern seinen Kontext dauerhaft sichern. Der Archivstandard Records in Contexts (RiC) formalisiert diese Beziehungen als verlinktes Datenmodell und macht sie damit auch für semantische Suche und Auswertung nutzbar.

Eine typische OAIS-konforme Infrastruktur ist modular: Ingest-Werkzeuge für die Datenübernahme und Paketbildung, ein Repository als elektronisches Archivmagazin, ein Archivinformationssystem für Erschliessung und Kontextdokumentation sowie ein Publikationsportal für Zugang und Recherche. Dazu gehört auch die systematische Überwachung von Dateiformaten, Datenstrukturen und Speichermedien auf Obsoleszenz; im OAIS-Modell wird dies Preservation Planning genannt. Lösungen dieser Art sind heute vor allem in öffentlichen Organisationen im Einsatz, zunehmend aber auch in privaten Organisationen mit Datenbeständen, die über Jahrzehnte nutzbar bleiben müssen.

Wenn Dokumente zu Information werden

Digitale Archivierung sichert Erhalt und Kontext. Digital Intelligence setzt an der nächsten Stufe an. Sie fokussiert auf den Informationswert von Dokumenten, indem sie deren Inhalt in strukturierte und kontextualisierte Information überführt. Ihr Ziel ist nicht, Wissen zu erzeugen – Wissen entsteht erst durch menschliche Interpretation und Urteilskraft. Ihr Ziel ist, die Voraussetzungen dafür zu schaffen.

Dieser Weg lässt sich in vier Kernprozesse gliedern. Am Anfang stehen Datenakquisition und Aufbereitung: Dokumente werden aus ihren Quellsystemen extrahiert – aus M365, Sharepoint, DMS, Filesystemen oder SaaS-Exporten. Erst dann können sie überhaupt in ein digitales Archiv überführt werden. Für nicht-textuelle Quellen kommen OCR für eingescannte Dokumente, HTR (Handwritten Text Recognition) für Handschriften und Speech-to-Text für Audio- und Videomaterial zum Einsatz.

Es folgt die Strukturierung: Der Dokumentinhalt wird in strukturierte Informationseinheiten überführt. Aus einem PDF wird ein Objekt mit Titel, Datum, Typ, Verfasser und Betreff; aus einer Ablagestruktur wird ein Dossier mit Bezügen zu übergeordneten Akten und beteiligten Stellen. Aus Dateien werden so maschinenlesbare Informationseinheiten.

Der dritte Schritt ist die Kontextualisierung und zugleich der technisch anspruchsvollste: Named Entity Recognition (NER) und Named Entity Linking (NEL) erkennen und verknüpfen, was im Dokument genannt wird – Personen, Organisationen, Orte, Zeiträume oder Ereignisse – und verbinden diese Angaben mit kontrollierten Vokabularien und Normdaten. Ein Name im Vertragstext wird so zur verlinkten Entität in einem Wissensgraphen. Die E-Mail «Ja, bewilligt» erhält ihren Kontext zurück, indem sie dem richtigen Projektdossier zugewiesen wird.

Darauf baut die automatische Erschliessung auf: Sprachmodelle generieren auf Basis von Inhalt und Kontext Titel, Kurzbeschreibungen und thematische Cluster. Was früher vollständig manuell formuliert und strukturiert werden musste, wird nun als Vorschlag erzeugt. Die Fachperson prüft, korrigiert und validiert diese Vorschläge. Die Maschine bereitet Information auf; die Verantwortung für ihre Bedeutung bleibt beim Menschen.

Für den produktiven Einsatz ist dabei Nachvollziehbarkeit entscheidend. Digital Intelligence im Archivkontext bedeutet keine Blackbox-Automatisierung, sondern eine Schritt für Schritt dokumentierte Transformation von Dokumenten in Information. Jede maschinell erzeugte Zuordnung oder Beschreibung muss fachlich rückführbar und dokumentiert sein.

Technische Stolpersteine

Die grössten technischen Hürden liegen in der Praxis nicht im Archivsystem, sondern in den Quellsystemen. Immer mehr Geschäftsapplikationen werden als SaaS bezogen – etwa CRM-, ERP-, HR-Systeme oder Kollaborationsplattformen. Damit entsteht ein strukturelles Problem: Dokumente und Daten liegen beim Anbieter, nicht bei der Organisation selbst. OAIS setzt jedoch voraus, dass das Archiv die vollständige Kontrolle über die archivierten Informationen übernimmt. Genau dies ist in einer SaaS-Umgebung nicht gegeben. Archivierung erfordert deshalb zwingend einen geregelten Export aus der SaaS-Applikation und die Übernahme in eine eigene, kontrollierte Infrastruktur.

Das klingt zunächst banal, ist in der Praxis aber eines der grössten Hindernisse. Export-Schnittstellen sind oft unzureichend dokumentiert oder rate-limitiert. Datenmodelle bleiben proprietär, und der Export liefert nicht selten flache CSV-Dumps ohne den nötigen Kontext. Beziehungen zwischen Objekten – etwa zwischen einer CRM-Opportunity, den zugehörigen Aktivitäten, Kontakten und Anhängen – gehen dabei leicht verloren. Hinzu kommt: Anbieter können APIs jederzeit ändern oder einstellen. Fehlt ein verlässlicher Exportprozess, droht bei Vertragsende der vollständige Verlust der Daten.

Auch jenseits von SaaS bleibt die Heterogenität der Quellsysteme eine Daueraufgabe. M365, Sharepoint, klassische Filesysteme und Legacy-DMS folgen jeweils eigenen Exportlogiken. Dokumente landen zudem oft in historisch gewachsenen Ablagestrukturen mit inkonsistenter Benennung; Dateinamen wie «final_v3_neu.docx» sind eher Regel als Ausnahme. Die automatische Erschliessung muss den Dokumentinhalt deshalb häufig ohne belastbare Metadaten auswerten. Erschwerend kommt hinzu, dass die Trefferqualität von NER-Modellen (gemessen in Precision und Recall) stark von der jeweiligen Domäne abhängt. Institutionsspezifische Vokabulare verbessern die Ergebnisse erheblich, verlangen aber den initialen Aufbau dieser kontrollierten Wortlisten.

Rechtlicher und organisatorischer Rahmen

Rechtliche Anforderungen sind kein nachgelagerter Zusatz, sondern lassen sich in der Digital-Intelligence-Pipeline abbilden. Das revidierte Schweizer Datenschutzgesetz (revDSG) und die DSGVO verlangen, dass personenbezogene Daten nur so lange aufbewahrt werden, wie ein legitimer Zweck es erfordert. Für Archivierungsvorhaben heisst das: Schutzfristen, Zugriffsregeln und Aufbewahrungsentscheide müssen bereits im Datenmodell berücksichtigt werden. In der Umsetzung hilft automatisierte PII-Erkennung (Personal Identifiable Information), sensible Informationen in grossen Dokumentenbeständen zu identifizieren. Ebenso lassen sich archivische Schutzfristenkategorien heute automatisiert setzen und begründen.

Dasselbe gilt für Bewertungsentscheide: Welche Dokumente werden temporär oder dauerhaft aufbewahrt, welche nach Gebrauch kontrolliert gelöscht? Wenn KI-Systeme dafür Vorschläge liefern, muss die Entscheidungslogik nachvollziehbar sein. «KI sagt nein» ist keine archivisch belastbare Begründung. Formulierungen wie «rein transitorische Kommunikation» oder «Dublette zum federführenden Dossier» sind es dagegen schon. Auch hier gilt: Die Maschine liefert Hinweise, die Verantwortung bleibt beim Menschen.

Auf organisatorischer Ebene erfordert Digital Intelligence deshalb die enge Zusammenarbeit zwischen Records Management, IT, Rechtsabteilung und Archiv. Klassische Silos – IT betreibt die Systeme, das Archiv entscheidet über den Inhalt, die Rechtsabteilung prüft erst am Schluss – greifen zu kurz, wenn Erschliessungspipelines gemeinsam entwickelt und betrieben werden. Archivfachliches Wissen ist dabei kein Nice-to-have. Lebenszyklusmodelle, Metadatenstandards und Normdaten müssen in der Organisation verankert werden – und umgekehrt müssen Archivarinnen und Archivare die Logik einerseits des Business und andererseits der IT-Infrastruktur nachvollziehen können.

Aktive Wissensinfrastruktur

Digitale Archivierung und Digital Intelligence greifen ineinander. Archivierung sichert Integrität, Kontext und Langzeiterhalt. Digital Intelligence erschliesst und strukturiert den Informationswert, der in Dokumenten gebunden ist. Das gemeinsame Ziel: Digitale Archive sind nicht einfach langfristige Datenspeicher, sondern aktive Wissensinfrastrukturen, deren Inhalte für das Tagesgeschäft nutzbar bleiben. Für IT-Professionals bedeutet das eine Neubewertung. Archivierungsprojekte sind heute nicht Infrastruktur-, sondern Datenarchitekturprojekte mit eigenen Standards, ethischen Anforderungen und regulatorischem Rahmen. Und mit den Archivwissenschaften als Disziplin im Rücken, die das Kontextproblem seit Jahrhunderten kennt.

Wer digitale Unterlagen lediglich speichert, sichert damit weder ihren Evidenzwert noch ihren Informationswert. Erst wenn Erhalt, Kontext, Erschliessung und Governance zusammengedacht werden, entsteht eine Infrastruktur, die Dokumente nicht nur bewahrt, sondern langfristig als Nachweis nutzbar, interpretierbar und auswertbar hält. Genau darin liegt der Unterschied zwischen digitaler Ablage und digitalem Gedächtnis.

Der Autor

Quelle: Docuteam

Tobias Wildi ist Mitbegründer und Verwaltungsratspräsident von Docuteam. Im Unternehmen ist er als Senior Consultant für digitale Archivierung und Informationsmanagement tätig, daneben als Dozent in verschiedenen Aus- und Weiterbildungen. Docuteam ist ein in der Schweiz und im europäischen Ausland tätiger Archivdienstleister und Lieferant von Software für digitale Archivierung. Das Unternehmen mit Standorten in Baden, Bern, Yverdon und Genf beschäftigt knapp 60 Mitarbeitende.

Kommentare

Das Bemühen um digitale Langzeitarchivierung ist selbstverständlich zu begrüssen. Allerdings, mir scheint, weniger wäre mehr. Digitale Daten bedingen zunächst einmal, dass sie gelesen werden können. Eine Word-Datei aus dem Jahre 1990 lässt sich heute im Original faktisch nicht mehr lesen, weder stehen Windows 3.1 noch Winword 2.x zur Verfügung. Bei konvertierten Daten fehlen aber oft Zeichen wie Formatierungen. Wäre die damalige WinWord 2.x Datei virtuell "abfotografiert" worden, bestünde heute zumindest eine Bild-Kopie, die visuell und auch computergestützt (bis hin zur lokalen KI) ausgewertet werden könnte. Und darum bietet sich dieser Weg auch 2026 noch an, damit in vielen Jahrzehnten diese bildlichen Daten mit einfachen Mitteln gelesen werden können. Letztlich bilden Bildpunkte den kleinsten gemeinsamen Nenner für das menschliche Auge. Leider beschränken sich die meisten aktuellen Archiv-Lösungen (vereinfacht gesagt) darauf, zu den Quelldateien Meta-Informationen hinzuzufügen. "Originale" Dateien (z.B. proprietäre Office-Formate) werden vielleicht in ein anderes "textbasiertes" Format (ODF) umgewandelt, doch die Schwierigkeit, dass Zeichensätze und Datenstrukturen sich über Jahrzehnte ändern bzw. einfach nicht konsistent sind. Diese Problematik kennen bildbasierte Datenformate nicht. Tiff- und/oder JPG-Dateien sind im Aufbau sehr einfach, bestehen seit mehreren Jahrzehnten und bieten ein fotografisches Gedächtnis, dass es ohne das "virtuelle" Abfotografieren so nicht gibt. Es ist bedauerlich, dass sich dieser einfache Weg bislang nicht in der "Branche" etabliert hat. Wie gesagt, weniger wäre manchmal mehr.
Montag, 11. Mai 2026, Urs Pfister

Artikel kommentieren