Dedupe gegen Storage-Hunger

Die Datenflut in Unternehmen steigt schier unaufhaltsam. Durchdachte Storage-Management-Strategien weisen einen Weg aus der Kostenspirale.

Artikel erschienen in Swiss IT Magazine 2010/01

Präsentationen, E-Mails, Fotos und Videos – wichtige neben belanglosen Dateien, neue neben alten Dokumenten lagern in den Storage-Systemen und Sicherungsbändern. Tag für Tag kommen neue Dateien hinzu, teils in mehreren Rechenzentren an verschiedenen Standorten und teils sogar mit identischem Inhalt. Gesetzliche Verpflichtungen zur Vorhaltung archivierter Daten, Umstellungen auf automatisierte Abläufe und immer komplexere Applikationen mit riesigem Storage-Hunger lassen die Datenspeicherung zu einem gigantischen Geschäft heranwachsen und verursachen trotz sinkender Hardware-Preise zunehmende Kosten.

Während allerdings in sämtlichen anderen Bereichen der IT gebetsmühlenartig mit Schlagworten wie «Effizienz» oder «Kosten-Nutzen-Analyse» argumentiert wird, agieren Verantwortliche in Sachen Speichermanagement oft übertrieben spendabel: Gespeichert wird jedes Bit und Byte – vorsorglich. Allerdings werden schätzungsweise mehr als die Hälfte aller elektronisch gespeicherten Informationen nie wieder gebraucht. Doch eine aussagekräftige Analyse über tatsächlich geschäftsrelevante Inhalte und löschbare Informationen kann in der Regel gar nicht erfolgen, weil es bereits bei einer selektiven Indizierung hapert. Indiziert wird, wenn überhaupt, wahllos. Auch fehlt es häufig an einer klaren Strategie dafür, welche Daten für das Backup bestimmt sind und welche Informationen in das Archiv gehören.

Die Folge: Zusätzlich zur Anschaffung neuer Storage-Komponenten kommen Ausgaben für die Administration sowie Kosten für Wartungsverträge und nicht zuletzt für die Datenpflege, fürs Backup und für die Archivierung des Datenvolumens hinzu. Ausgaben, die es eigentlich gar nicht geben dürfte: Nach einer Erhebung des Marktforschungsinstituts International Data Corporation (IDC) liegt die durchschnittliche Auslastung existierender Speichersysteme in einem Storage Area Network (SAN) nämlich bei mageren 35 bis 40 Prozent. Mit anderen Worten: Mindestens 60 Prozent des verfügbaren Speicherplatzes liegen brach.

Speichern mit Köpfchen

Einen Ausweg aus dem Datenchaos bilden neue Storage-Management-Strategien auf Basis der sogenannten Deduplizierung, im Englischen oft kurz «Dedupe» genannt. Das Verfahren der Deduplizierung folgt einem simplen Prinzip: Zunächst wird nach identischen Dateien gesucht. Werden mehrere identische Dokumente gefunden, speichert oder archiviert der Dedupliziermechanismus die entsprechende Datei nur einmal, während er alle weiteren identischen Dokumente durch eine kleinere Stellvertreterdatei ersetzt. Diese fungiert als Referenz für die grössere Datei.

Damit das Verfahren fehlerfrei greift, muss die Deduplizierung eine Datei unverwechselbar identifizieren. Symantec zum Beispiel setzt hierfür die Technologie «Unique File Identification» ein. Hierbei wird jedes Bit und Byte in einem Dokument untersucht und daraus ein digitaler Fingerabdruck berechnet. Die Technik greift hierzu auf den als Internet-Standard (RFC 1321) definierten MD5-Hash-Algorithmus zurück, mit dessen Hilfe sie einen 128 Bit langen Fingerabdruck generiert. Dieses eindeutige Erkennungsmerkmal für eine Datei wird schliesslich in einer zentralen Index-Datenbank gesammelt. Der Vorteil des Stellvertreter-Verfahrens ist, dass Dateien mit demselben Inhalt den gleichen Fingerabdruck haben, auch wenn der Anwender oder eine Applikation sie anders benannte, an unterschiedlichen Zeiten bearbeitete oder an unterschiedlichen Orten ablegte.

Mehr Wirkung durch Segmentierung

Der Effekt dieses Grundprinzips schwächt sich allerdings ab, je grösser und dynamischer die Dateien werden. Insbesondere E-Mail-Archive zeigen diese Charakteristika. Bereits eine einzige neue Mail verändert die grosse .pst-Datei so sehr, dass ein frischer Fingerabdruck berechnet wird. Zwei Dokumente würden abgelegt, obwohl sie sich untereinander nur durch eine Nachricht unterscheiden. Aus diesem Grund wurde die Deduplizierung weiterentwickelt. Inzwischen ist es möglich, grosse Dateien in mehrere kleinere, in ihrer Grösse frei zu konfigurierende Segmente aufzuteilen. So werden nur die jeweiligen Dateisegmente abgespeichert, die sich von der Vorgängerversion unterscheiden. Da der Grossteil der Segmente, in die eine voluminöse Datei aufgeteilt wurde, unverändert bleibt, müssen diese nicht noch einmal archiviert werden.

Skalieren in grossen Netzen

Zu archivierende und zu sichernde Daten sind in jedem Unternehmen auf das gesamte Netzwerk verstreut. Um alle zu erfassen, müsste der Administrator sie theoretisch alle an einer Stelle zusammenführen und dann per Deduplizierung bearbeiten. Das ist weder praktikabel noch umsetzbar. Symantec hat die Deduplizierung daher auf verschiedene Standorte, Aussenstellen und Systeme ausgedehnt. Zu diesem Zweck wurde die Datei-Charakteristika von den eigentlichen Inhalten getrennt und auf die sogenannte Metabase und den Content Router aufgeteilt. Die Metabase ist eine skalierbare Datenbank, in der die Metadaten eines Dokuments abgelegt sind. Darunter fallen sein Name, der Speicherpfad, die Sicherheitseinstellungen und natürlich der Fingerabdruck. Die Metabase lässt sich an mehreren Stellen im Netzwerk aufsetzen und fungiert prinzipiell als Ortungssys-tem. Sie weiss, wo das Dokument in welcher Version physisch abgelegt ist.

Das jeweilige Original oder seine Segmente sind in einem beziehungsweise mehreren geographisch verteilten Content-Routern abgelegt. Das erste Zeichen im Fingerabdruck eines Dokuments oder eines Dateisegments weist darauf hin, wo in den Content-Routern das entsprechende File zu finden ist. Die Inhalts-Router selbst sind direkt an ein physisches Speichersystem angekoppelt, sei es ein Direct-Attached-Storage-System (DAS), Network-Attached-Storage-System (NAS) oder ein ganzes Storage-Area-Network (SAN). Dort liegen die einzigartigen Dokumente, auf die die Metabase schliesslich verweist. Um an die jeweiligen Dateien zu gelangen, werden auf den entsprechenden Servern Agenten installiert. Sie berechnen den Fingerabdruck für das Dokument und gleichen ihn mit den Pendants in der Metabase ab. Symantec hat, wie einige andere Anbieter auch, die Deduplizierung standardmässig in seine Backup- und Disaster-Recovery-Lösungen eingebunden. Dadurch ist gewährleistet, dass die Deduplizierung bereits an der Quelle der Daten eingreifen, ihren vollen Effekt erzielen und den Speicherbedarf so wichtiger Prozesse wie der Archivierung und dem Backup erheblich senken kann. So sind IT-Verantwortliche in der Lage, den ungenutzten Speicher im Unternehmen zu entdecken und zu analysieren, wie und wo der freie Platz an anderer Stelle verwendet werden kann. Dabei gilt grundsätzlich: Deduplizierung beschränkt sich nicht auf einzelne Lösungen, IT-Segmente oder Niederlassungen, sondern umfasst idealerweise sämtliche Daten, die in allen Systemen und in jeder Niederlassung des Unternehmens existieren. Am elegantesten und effektivsten lässt sich eine entsprechende Strategie deshalb implementieren, indem Daten bereits nach der Erstellung durch den Anwender dedupliziert werden. Hinzu kommt, dass Backup- und Archivierungslösungen über Schnittstellen an das Storage-Management angebunden sein müssen.

KMU: Nachholbedarf ist akut

Ein weiterer wichtiger Aspekt der Deduplizierung: Gleichzeitig lässt sich der Disaster-Recovery-Prozess optimieren. Vor allem in kleinen und mittelständischen Unternehmen (KMU) herrscht diesbezüglich noch Nachholbedarf, wie eine aktuelle Umfrage von Symantec kürzlich zum Vorschein brachte. Rund die Hälfte von 1650 weltweit befragten KMU hat demzufolge keinen Disas-ter-Recovery-Plan aufgesetzt. Und das, obwohl ein IT-Vorfall erfahrungsgemäss einen Schaden von durchschnittlich 15’000 Dollar verursacht.

Vielmehr gaben 82 Prozent der weltweit befragten IT-Zuständigen an, dass sie mit ihren Vorkehrungen zufrieden bis sehr zufrieden sind, während sich in Deutschland 59 Prozent dieser Aussage anschliessen. Bei der Frage, wie gut vorbereitet sie sich für den Fall einer IT-Störung fühlen, kommt die Studie zu ähnlichen Ergebnissen. Während weltweit 84 Prozent der KMU erklären, sich geschützt bis sehr geschützt zu fühlen, sind es in Deutschland mit 66 Prozent etwas weniger. Ein alarmierendes Ergebnis, denn die Hälfte dieser KMU gibt gleichzeitig an, noch nicht zu wissen, wie sie in einem solchen Fall reagieren sollten.

Weitere Fakten also, das Storage-Management zu überdenken: So sollten sich KMU genügend Zeit nehmen, um genau zu entscheiden, welche kritischen Daten gesichert und geschützt werden müssen und welche Informationen weniger relevant sind. Hier helfen externe Berater und Lösungsanbieter, die einen professionellen Plan zur Implementierung einer automatischen Sicherheitslösung entwickeln. Ratsam ist es zudem, automatische Sicherungen einzuführen. So lassen sich Schäden von IT-Ausfällen deutlich senken und menschliches Versagen ausschliessen. Zu guter Letzt gilt es, einmal jährlich Tests des Disaster Recovery durchzuführen und den Ernstfall zu proben.

Artikel kommentieren