Dedupe gegen Storage-Hunger

Dedupe gegen Storage-Hunger

25. Januar 2010 - Die Datenflut in Unternehmen steigt schier unaufhaltsam. Durchdachte Storage-Management-Strategien weisen einen Weg aus der Kostenspirale.
Artikel erschienen in IT Magazine 2010/01
(Quelle: Vogel.de)

Präsentationen, E-Mails, Fotos und Videos – wichtige neben belanglosen Dateien, neue neben alten Dokumenten lagern in den Storage-Systemen und Sicherungsbändern. Tag für Tag kommen neue Dateien hinzu, teils in mehreren Rechenzentren an verschiedenen Standorten und teils sogar mit identischem Inhalt. Gesetzliche Verpflichtungen zur Vorhaltung archivierter Daten, Umstellungen auf automatisierte Abläufe und immer komplexere Applikationen mit riesigem Storage-Hunger lassen die Datenspeicherung zu einem gigantischen Geschäft heranwachsen und verursachen trotz sinkender Hardware-Preise zunehmende Kosten.


Während allerdings in sämtlichen anderen Bereichen der IT gebetsmühlenartig mit Schlagworten wie «Effizienz» oder «Kosten-Nutzen-Analyse» argumentiert wird, agieren Verantwortliche in Sachen Speichermanagement oft übertrieben spendabel: Gespeichert wird jedes Bit und Byte – vorsorglich. Allerdings werden schätzungsweise mehr als die Hälfte aller elektronisch gespeicherten Informationen nie wieder gebraucht. Doch eine aussagekräftige Analyse über tatsächlich geschäftsrelevante Inhalte und löschbare Informationen kann in der Regel gar nicht erfolgen, weil es bereits bei einer selektiven Indizierung hapert. Indiziert wird, wenn überhaupt, wahllos. Auch fehlt es häufig an einer klaren Strategie dafür, welche Daten für das Backup bestimmt sind und welche Informationen in das Archiv gehören.


Die Folge: Zusätzlich zur Anschaffung neuer Storage-Komponenten kommen Ausgaben für die Administration sowie Kosten für Wartungsverträge und nicht zuletzt für die Datenpflege, fürs Backup und für die Archivierung des Datenvolumens hinzu. Ausgaben, die es eigentlich gar nicht geben dürfte: Nach einer Erhebung des Marktforschungsinstituts International Data Corporation (IDC) liegt die durchschnittliche Auslastung existierender Speichersysteme in einem Storage Area Network (SAN) nämlich bei mageren 35 bis 40 Prozent. Mit anderen Worten: Mindestens 60 Prozent des verfügbaren Speicherplatzes liegen brach.


(Quelle: Vogel.de)
(Quelle: Vogel.de)


Speichern mit Köpfchen

Einen Ausweg aus dem Datenchaos bilden neue Storage-Management-Strategien auf Basis der sogenannten Deduplizierung, im Englischen oft kurz «Dedupe» genannt. Das Verfahren der Deduplizierung folgt einem simplen Prinzip: Zunächst wird nach identischen Dateien gesucht. Werden mehrere identische Dokumente gefunden, speichert oder archiviert der Dedupliziermechanismus die entsprechende Datei nur einmal, während er alle weiteren identischen Dokumente durch eine kleinere Stellvertreterdatei ersetzt. Diese fungiert als Referenz für die grössere Datei.

Damit das Verfahren fehlerfrei greift, muss die Deduplizierung eine Datei unverwechselbar identifizieren. Symantec zum Beispiel setzt hierfür die Technologie «Unique File Identification» ein. Hierbei wird jedes Bit und Byte in einem Dokument untersucht und daraus ein digitaler Fingerabdruck berechnet. Die Technik greift hierzu auf den als Internet-Standard (RFC 1321) definierten MD5-Hash-Algorithmus zurück, mit dessen Hilfe sie einen 128 Bit langen Fingerabdruck generiert. Dieses eindeutige Erkennungsmerkmal für eine Datei wird schliesslich in einer zentralen Index-Datenbank gesammelt. Der Vorteil des Stellvertreter-Verfahrens ist, dass Dateien mit demselben Inhalt den gleichen Fingerabdruck haben, auch wenn der Anwender oder eine Applikation sie anders benannte, an unterschiedlichen Zeiten bearbeitete oder an unterschiedlichen Orten ablegte.

 
Seite 1 von 3

Neuen Kommentar erfassen

Anti-Spam-Frage Wieviele Fliegen erledigte das tapfere Schneiderlein auf einen Streich?
Antwort
Name
E-Mail
SPONSOREN & PARTNER