Datendeduplikation ist ein aktueller Storage-Trend und kann wesentlich zur Konsolidierung der Speicherlandschaft beitragen – der Hintergrundartikel «Dedupe gegen Storage-Hunger» schildert die Problematik und beschreibt die Lösung eines bestimmten Herstellers näher.
Varianten der Deduplizierung
Varianten der Deduplizierung
Unterschiedliche Varianten
Es gibt aber zwei unterschiedliche technische Varianten und mehrere Ansatzpunkte, an denen die Deduplizerung greifen kann. Prinzipiell unterscheidet man bei der Technologie zwischen Source-side- und Target-side-Deduplication.
Bei der Source-side-Deduplication werden doppelte Daten File- oder Block-basiert bereits an der Quelle, also typischerweise auf dem Server, der für die erste Stufe der Datenhaltung zuständig ist, identifiziert und in der Folge nur einmal im Filesystem gelagert. Die «doppelten» Files werden zwar als separate Entitäten geführt, aber nur in Form von Links zu der einmal gespeicherten Datei erfasst.
Die Target-side-Deduplication sorgt auf der Storage-Seite dafür, dass keine von den Quellen eingehenden Daten doppelt gelagert werden. Dabei sind zwei Implementationstypen zu unterscheiden: Bei der Post-Process-Deduplication werden alle eingehenden Daten zunächst auf der Speichereinheit abgelegt und erst später auf doppelte Daten hin analysiert. Der Vorteil: Beim Speichern entsteht keine Verzögerung, dafür kann es bei starker Auslas-tung des Speichergeräts durch die zu Beginn allenfalls doppelte Ablage zu Engpässen kommen – und der Zeitbedarf für das Post-Processing und damit der Zeitpunkt, wann die Daten tatsächlich dedupliziert bereitstehen, lässt sich nicht voraussagen.
Anders die Inline-Deduplication: Hier werden die Daten direkt beim Eintreffen analysiert. Die Analyse – im Normalfall durch Berechung der Hash-Werte eingehender Daten und Nachschlagen in einer Metadatenbank mit bereits erfassten Hashes – beansprucht jedoch Rechenleistung und Zeit; die Storage-Performance wird zwangsläufig etwas reduziert. Je nach Implementationstyp spielt dieses Gegenargument heute aber keine grosse Rolle mehr.
Hersteller IBM zum Beispiel betont, seine Protectier-Technologie basiere nicht auf Hash-Algorithmen, sondern auf einem «Hyperfactor» und biete deshalb Datenintegrität der Enterprise-Klasse und eine konstante Backup-Performance von 1000 Megabyte pro Sekunde.