Autonomie im Data Center
Artikel erschienen in Swiss IT Magazine 2004/05
Unplanned Downtime» – so nennt der IT-Jargon euphemistisch sämtliche Betriebsausfälle, die irgendwie von nicht funktionierenden IT-Systemen ausgehen. Betrachtet man die Ursachen genauer, ergibt sich folgendes Bild: In vierzig Prozent der Fälle spielen Bedienungsfehler die Hauptrolle. Weitere vierzig Prozent sind auf Programmfehler und softwarebedingte Performance-Probleme zurückzuführen; defekte Hardware dagegen ist an nur zwanzig Prozent der Ausfälle schuld.
IT-Systeme gelten seit den Anfangszeiten als fehleranfällig und ausfallträchtig. Die Vision der idealen Informatik sieht anders aus: «Selbstdiagnostizierende», «selbstverwaltende», «selbstkonfigurierende» und «selbstheilende» Systeme kombinieren sich selbst zu einer funktionierenden Gesamt-Infrastruktur, prognostizieren Hardwaredefekte schon vor dem Auftreten und schalten automatisch auf Reservekomponenten um. Softwarefehler werden abgefangen und behoben oder umgangen, bevor sie zum Absturz führen. Engpässe werden durch Redundanz und Lastausgleich vermieden. Das Ganze passiert, ohne dass die Entwickler von Anwendungssoftware in ihren Programmen irgendwelche Fehlerbehandlungsroutinen einfügen müssen – und selbstverständlich vollautomatisch ohne Eingriff durch einen Systemadministrator. Der Nutzen: geringere Ausfallzeiten, weniger Administrationsaufwand, einfachere Anwendungsentwicklung.
Dieses IT-Eldorado ist noch in weiter Ferne, auch wenn eine ganze Reihe von Herstellern derzeit mit Begriffen wie «Adaptive Enterprise» oder «On-Demand Computing» wirbt – für solche IT-Betriebsmodelle sind weitgehend autonome Systeme jedoch eine unabdingbare Voraussetzung.
Für die Hersteller ist dies Grund genug, die Entwicklung in diese Richtung kräftig voranzutreiben – das Konzept des «Autonomic Computing» ist, so Ric Telford, einer der Direktoren der Autonomic-Forschung bei IBM, gerade mal etwas mehr als zwei Jahre alt. Die Website der IBM-Forschungsgruppe gibt denn auch zu: «Von vollständig autonomen Systemen sind wir Jahre entfernt. Bestimmte Autonomiefunktionen werden aber schon vorher in Servern, Storage-Produkten und Software erscheinen.»
IBM präsentiert eine Liste mit 36 Produkten, die bereits heute punktuell mit selbstverwaltenden Eigenschaften aufwarten. Die Bandbreite reicht vom Beschleunigungssensor, der in gewissen Thinkpad-Modellen beim Fallenlassen des Geräts rechtzeitig die Harddisk parkt, bis zum Health Monitor der hauseigenen DB2-Datenbank.
Damit ein IT-System auftretende Probleme selbsttätig lösen kann, muss es die passende Reaktion auf ein Problem experimentell erlernen, sich auf einen vordefinierten Satz von Regeln stützen oder beide Verfahrensweisen kombinieren.
Das gilt sowohl für das Gesamtsystem als auch für alle einzelnen Komponenten. Ein autonomes System ist eine Ansammlung von autonomen Elementen, die sich intern in einem Regelkreis (Control Loop) verwalten: Sie wissen über ihre eigene Funktionsweise Bescheid, überwachen ständig ihre Betriebsparameter, analysieren die Ergebnisse der Überwachung und reagieren beim Auftreten eines Problems mit passenden Massnahmen. Wenn sie selbst keine Lösung erarbeiten können, melden sie das Problem an eine übergeordnete Instanz. Diese ist ihrerseits in einen entsprechenden Regelkreis eingebunden.
Im Detail gibt es bisher keine einheitliche Definition von Begriffen wie «selbstheilend», im grossen ganzen stimmen die Ziele von Herstellern, Forschern und Anwendern jedoch überein. Eine autonome IT-Infrastruktur sollte die folgenden Bedingungen erfüllen:
Komponenten erkennen und definieren sich selbst und können andere Komponenten über diese Erkenntnisse informieren. Damit dies herstellerübergreifend funktioniert, sind offene Standards wie das Intelligent Platform Management Interface IPMI oder die Web-based Enterprise Management Initiative der Distributed Management Task Force WBEM/CIM am Entstehen.
Auftretende Fehler und Engpässe werden selbsttätig erkannt und über standardisierte Mechanismen publiziert, zum Beispiel via SNMP oder WBEM/CIM. So weit sind wir heute schon – die Management-Suiten von Tivoli, HP, CA und anderen Herstellern verfolgen genau diesen Zweck.
Fehler werden automatisch korrigiert, und zwar ohne menschlichen Eingriff, aber jederzeit nachvollziehbar. Als Basis dienen die publizierten Fehlermeldungen der einzelnen Komponenten. Mit dem Erkennen ist ein Problem aber noch lange nicht gelöst: Nicht bloss der Fehler selbst, sondern seine genaue Ursache muss bekannt sein, damit das System automatisch die richtige Korrekturmassnahme ergreifen kann. Je komplexer, verteilter und heterogener die Infrastruktur als Ganzes ist, desto schwieriger werden Analyse und Diagnose.
Defekte Komponenten werden ohne menschlichen Eingriff ersetzt. In der Praxis ist dies bisher am besten umgesetzt: Es gibt bereits fehlertolerante Gesamtsysteme wie die Himalaya-Architektur von HP; auch die gängigen «Hot-Spare»-Disks in RAID-Systemen fallen in dieses Kapitel.
Auf Engpässe reagiert das System von sich aus. Auch dies ist teilsweise bereits realisiert: Serverfarmen, Load Balancing und Clustering sind schon heute gang und gäbe – allerdings meist punktuell und auf bestimmte Hersteller oder Einsatzbereiche beschränkt.
Das System zeichnet seine Reaktionen auf vergangene Fehler und Engpässe auf und verfeinert so ständig die statistischen Modelle, mit denen es in Zukunft seine Korrekturmassnahmen plant und durchführt.
Die umfassendste Vision einer autonomen IT findet sich derzeit bei IBM; sie umfasst über das Data Center hinaus auch Zukunftsanwendungen wie das Auto, das sich während der Fahrt selbst überwacht, die kleinste Betriebsstörung sofort erkennt und schlimmstenfalls sofort stehenbleibt.
Neben Big Blue arbeiten aber auch andere Hersteller fieberhaft an Konzepten, mit denen die Vision der idealen IT umgesetzt werden soll. Die Ansätze und vor allem der Einzugsbereich der Konzepte unterscheiden sich erheblich – wo ein Hersteller vor allem auf Autonomie in einzelnen Produkten setzt und zum Beispiel seine Server mit Selbstheilungsfunktionen ausstattet, hat ein anderer den vollautonomen Betrieb grosser heterogener Umgebungen zum Ziel. Je umfassender die Reichweite sein soll, desto wichtiger werden dabei herstellerübergreifende, durchgängig implementierte offene Standards vom Datenübertragungsprotokoll bis zum Grid Computing.
IBM präsentiert auf verschiedenen Webseiten ausführlich seine Autonomic-Computing-Visionen; der Schwerpunkt liegt neben ganz neuen Technologien auf der Integration möglichst vieler bestehender Komponenten in die autonome Infrastruktur. Neben Whitepapers und FAQs zum Thema, Informationen für Entwickler auf der Developerworks-Site und Forschungseinblicken auf der Emerging-Technologies-Site Alphaworks hält IBM seit kurzem den Autonomic Computing Toolkit bereit. Er enthält unter anderem die Monitoring- und Analyse-Engine AME, eine universell einsetzbare Web-Administrationskonsole, XML-basierte Installations- und Konfigurationstechnologien sowie diverse Technologien und Tools zur Problemerkennung und -analyse, darunter den Log and Trace Analyzer, mit dem man Event-Logs im Common-Base-Event-Format liest, das IBM dem OASIS-Gremium als Standard für die automatische Problemanalyse vorgelegt hat.
Im Zentrum selbstverwaltender IT-Systeme stehen – nicht nur nach IBM-Doktrin – Regelkreise, sogenannte Control Loops. Jede IT-Ressource wird durch einen internen Autonomic Manager ergänzt, der Konfiguration, Suche und Behebung von Fehlern in einem vierstufigen Verfahren erledigt. Die Betriebsparameter der Ressource werden laufend überwacht und aufgrund einer Wissensdatenbank analysiert. Passende Korrekturmassnahmen werden geplant und ausgeführt. Die Erkenntnisse werden für die Zukunft in der Wissensdatenbank gespeichert.
Microsoft kennt ebenfalls einen Blueprint für die IT-Zukunft, der sich naturgemäss auf Windows konzentriert: Die Dynamic Systems Initiative DSI bietet Hardware-, Software- und Dienstleistungsanbietern eine einheitliche Architektur auf Basis des System Definition Model SDM: Via XML soll SDM die Anforderungen der Applikationen mit den Richtlinien des Data Centers in Einklang bringen. In der Praxis zeigt sich dies erstmals und bisher ausschliesslich im Windows Server 2003 in Form von Features wie dem Provisioning- und Administrationsdienst ADS, dem dynamischen Ressourcenmanagement sowie integrierten Load-Balancing- und Virtualisierungsmechanismen.
Der Microsoft-Ansatz unterscheidet sich erklärtermassen vom IBM-Konzept: Gemäss Microsoft muss die gesamte Software vom Betriebssystem bis zu den Anwendungen von Beginn an auf den selbstregulierenden Betrieb ausgerichtet sein, IBM dagegen betone vor allem das Management bestehender Systemkomponenten als Nachgedanke zum Applikations- und Systemdesign.
Unisys ist ein gutes Beispiel für einen Hardwarehersteller, der seinen Serversystemen Autonomiefunktionen verpasst: Server Sentinel bietet dem Administrator über ein Web-Interface detaillierte Informationen über den Zustand von ES7000- und Clearpath-Servern, kombiniert mit Selbstheilungsmechanismen wie automatischem Neustart nach Abstürzen oder Erkennung von Disk- und anderen Hardwareproblemen vor dem endgültigen Defekt.
Bei Fujitsu Siemens heisst das Autonomiekonzept SysFrame. Es befasst sich mit sämtlichen FSC-Produkten fürs businesskritische Computing vom Intel-basierten Primergy-Server bis zum BS2000-Mainframe samt zugehörigen Storage-Einheiten und Clients. FSC vergleicht das Konzept mit dem vegetativen Nervensystem des Menschen, das die Grundvorgänge im Körper ohne bewusstes Zutun regelt. Sysframe verspricht Selbstkonfiguration, Selbstoptimierung, Selbstheilung und Selbstschutz der hauseigenen Systeme und sieht das Ganze als evolutionären Schritt hin zum «Utility Computing» in grossen heterogenen Umgebungen. Als eine der ersten konkreten Implementationen des Sysframe-Konzepts nennt Fujitsu Siemens seine Lösung FlexFrame for mySAP.com, die zusammen mit SAP und Network Appliance entwickelt wurde, Server, Storage-Systeme und Software umfasst und TCO-Einsparungen von bis zu 60 Prozent beim Betrieb einer mySAP-Installation verspricht.
Zu den Playern im Autonomie-Segment gehören auch die Hersteller von Management-Software, darunter neben HP und Tivoli sowie spezialisierten Firmen wie Candle auch der Generalist Computer Associates. Der Schwerpunkt liegt hier auf On-Demand-Computing; die Basis bildet ein Service Layer namens CA Common Services, über den die Management-Anwendungen von CA unabhängig von Plattformen und Kommunikationsprotokollen beliebige IT-Umgebungen verwalten können. Die Common Services ergänzt CA durch eine neue Technologie namens Sonar, die sich um die Korrelation zwischen systemnahen Betriebs- und Fehlerinformationen und den betroffenen Geschäftsprozessen kümmert.
Neben Servern und Software spielt das Netzwerk eine weitere, nicht minder bedeutsame Rolle. IBM und Cisco arbeiten deshalb an gemeinsamen Technologien zum Erkennen und Beheben von netzwerkrelevanten Problemen. Bisher, so die Beteiligten, sei dies durch unterschiedliche und proprietäre Eigenschaften der vielfältigen im typischen Data Center installierten Produkte erschwert worden.
www.ibm.com/autonomic
Umfassende Infos zur Autonomic-Strategie von IBM mit Whitepapers und Links zu Entwickler-Informationen
www.microsoft.com/dsi
Umfangreiche Infosite zu Microsofts Dynamic System Initiative und zum System Definition Model
www.unisys.com
Produktinfos und Whitepapers zu den Systemmanagement-Produkten von Unisys, darunter Server Sentinel und Application Sentinel
www.fujitsu-siemens.com
Homepage zur SysFrame-Vision von Fujitsu Siemens
www3.ca.com
Whitepaper zur On-Demand-Computing-Strategie von Computer Associates
www.candle.com
Candle ist spezialisiert auf Management-Lösungen im IBM-Umfeld (Beispiele: Performance- und Konsolenautomation für z/OS-Umgebungen). Die Website bietet unter anderem das Whitepaper «From Automatic to Autonomic».