Varianten der Deduplizierung

Varianten der Deduplizierung

25. Januar 2010 - Von der Zusatzoption zur Backup-Software bis zur Integration in den Enterprise-Array: Deduplizierungs-technologie gibt es in zahlreichen Spielarten.
Artikel erschienen in IT Magazine 2010/01
Die Source-Side-Lösung Avamar von EMC ist wahlweise als Software, als virtuelle Appliance oder als Speichergerät (Avamar Datastore) mit passenden Agents erhältlich.
(Quelle: Vogel.de)

Datendeduplikation ist ein aktueller Storage-Trend und kann wesentlich zur Konsolidierung der Speicherlandschaft beitragen – der Hintergrundartikel «Dedupe gegen Storage-Hunger» schildert die Problematik und beschreibt die Lösung eines bestimmten Herstellers näher.


Die Source-Side-Lösung Avamar von EMC ist wahlweise als Software, als virtuelle Appliance oder als Speichergerät (Avamar Datastore) mit passenden Agents erhältlich. (Quelle: Vogel.de)
(Quelle: Vogel.de)


Unterschiedliche Varianten

Es gibt aber zwei unterschiedliche technische Varianten und mehrere Ansatzpunkte, an denen die Deduplizerung greifen kann. Prinzipiell unterscheidet man bei der Technologie zwischen Source-side- und Target-side-Deduplication.


Bei der Source-side-Deduplication werden doppelte Daten File- oder Block-basiert bereits an der Quelle, also typischerweise auf dem Server, der für die erste Stufe der Datenhaltung zuständig ist, identifiziert und in der Folge nur einmal im Filesystem gelagert. Die «doppelten» Files werden zwar als separate Entitäten geführt, aber nur in Form von Links zu der einmal gespeicherten Datei erfasst.

Die Target-side-Deduplication sorgt auf der Storage-Seite dafür, dass keine von den Quellen eingehenden Daten doppelt gelagert werden. Dabei sind zwei Implementationstypen zu unterscheiden: Bei der Post-Process-Deduplication werden alle eingehenden Daten zunächst auf der Speichereinheit abgelegt und erst später auf doppelte Daten hin analysiert. Der Vorteil: Beim Speichern entsteht keine Verzögerung, dafür kann es bei starker Auslas-tung des Speichergeräts durch die zu Beginn allenfalls doppelte Ablage zu Engpässen kommen – und der Zeitbedarf für das Post-Processing und damit der Zeitpunkt, wann die Daten tatsächlich dedupliziert bereitstehen, lässt sich nicht voraussagen.


Anders die Inline-Deduplication: Hier werden die Daten direkt beim Eintreffen analysiert. Die Analyse – im Normalfall durch Berechung der Hash-Werte eingehender Daten und Nachschlagen in einer Metadatenbank mit bereits erfassten Hashes – beansprucht jedoch Rechenleistung und Zeit; die Storage-Performance wird zwangsläufig etwas reduziert. Je nach Implementationstyp spielt dieses Gegenargument heute aber keine grosse Rolle mehr.


Hersteller IBM zum Beispiel betont, seine Protectier-Technologie basiere nicht auf Hash-Algorithmen, sondern auf einem «Hyperfactor» und biete deshalb Datenintegrität der Enterprise-Klasse und eine konstante Backup-Performance von 1000 Megabyte pro Sekunde.

 
Seite 1 von 2

Neuen Kommentar erfassen

Anti-Spam-Frage Wieviele Fliegen erledigte das tapfere Schneiderlein auf einen Streich?
Antwort
Name
E-Mail
SPONSOREN & PARTNER