Datenanalyse mit Hilfe von Hadoop

Datenanalyse mit Hilfe von Hadoop

7. September 2014 - Von Christian Gügi

Das generische, flexible Toolset Hadoop bildet den Kern von Systemen, die zur Analyse von unstrukturierten, heterogenen Daten eingesetzt werden.
Artikel erschienen in IT Magazine 2014/09
(Quelle: YMC)
Früher waren Informationen ein reines Nebenprodukt – heute sind sie zentrales Kapital jedes Unternehmens. Sie werden als Erdöl des 21. Jahrhunderts bezeichnet, und aus ihnen lässt sich mittels Big-Data-Technologien erfolgskritisches Wissen generieren. Das Potential scheint unendlich zu sein, die Entwicklung steht indes erst am Anfang.
Seit Google seine technologischen Lösungen für paralleles Rechnen mit grossen Datenbeständen veröffentlicht hat, lassen sich unstrukturierte, heterogene Daten mit gängiger Hardware analysieren. Den Kern solcher Systeme bildet Hadoop, ein Leuchtturmprojekt der Apache Software Foundation (ASF) und zu 100 Prozent Open Source. Es lässt sich als generisches, flexibel einsetzbares Toolset für die Speicherung, Verarbeitung, Analyse und Abfrage von massiven Datenmengen umschreiben und kommt als der zentraler Enabler für Big-Data-Analytics-Systeme zum Einsatz.

(Quelle: YMC)
(Quelle: YMC)


Das Hadoop-Ökosystem

Das seit Februar 2014 in Version 2 verfügbare Hadoop ist modular aufgebaut. Zu diesem Top-Level-Projekt der ASF gehören mehr als 13 Unterprojekte, die auf verschiedene Weise kombiniert werden können und als Hadoop-Ökosystem bezeichnet werden. Die Kernkomponenten, welche die Grundlage für Hadoop bilden, sind:
- Das verteilte Dateisystem Hadoop Distributed Filesystem (HDFS) für die Datenspeicherung.
- Der Allzweck-Scheduler Yet Another Resource Negotiator (YARN) zur Ausführung jeglicher YARN-Anwendungen auf einem Hadoop-Cluster.
- Mapreduce, ein Batch-basiertes Programmiermodell für die parallele Verarbeitung der Daten.

HDFS
HDFS ist ein leistungsfähiges, verteiltes Dateisystem und bildet die Speicherkomponente von Hadoop. Es ist optimiert für hohen Durchsatz und funktioniert am besten beim Lesen und Schreiben von grossen Dateien (Gigabyte und grösser). Um diesen Durchsatz zu erzielen, nutzt HDFS, im Gegensatz zu gängigen Dateisystemen, ungewöhnlich grosse Datenblöcke (mindestens 64 MB) und Daten-
lokalität-Optimierung, um Netzwerk-Traffic zu reduzieren.
Hohe Verfügbarkeit sowie Skalierbarkeit sind ebenfalls wichtige Merkmale von HDFS. Diese werden mittels eingebauter Datenreplikation auf Blockebene und Fehlertoleranz erreicht. Je nach Konfiguration repliziert HDFS Dateien auf unterschiedliche Knoten und ist tolerant gegenüber Software- und Hardwarefehlern. Tritt ein Fehler auf einer einzelnen Maschine im Cluster auf, werden deren Datenblöcke automatisch auf einen anderen Knoten im Cluster re-repliziert. Die Speicher- und Rechenkapazitäten skalieren linear mit dem Hinzufügen weiterer Cluster-Knoten. So können mit hunderten von Knoten Kapazitäten im Petabyte-Bereich aufgebaut werden.
 
Seite 1 von 4

Neuen Kommentar erfassen

Anti-Spam-Frage Wieviele Zwerge traf Schneewittchen im Wald?
Antwort
Name
E-Mail
SPONSOREN & PARTNER