Gitter kommen ins Glashaus

Noch sind die meisten Grid-Projekte wissenschaftlicher Natur. Die Rechnervernetzung hat aber auch in Sachen Integration Potential.

Artikel erschienen in Swiss IT Magazine 2004/05

Grid Computing geistert schon seit ein paar Jahrzehnten durch die IT. Erst als theoretisches Konzept, später als billiger Ersatz für akademische Supercomputer und schliesslich auch zum Beispiel in Form des Seti@Home-Projekts, um weltweit Interessierte an der Suche nach Spuren von ausserirdischem Leben teilhaben zu lassen. Jetzt soll Grid aber den Elfenbeinturm und die Stufe der Freiwilligenprojekte verlassen und im Glashaus – in der Unternehmensinformatik – Einzug halten.
Erste kommerzielle Installationen sind bereits produktiv, zum Beispiel vernetzt der Basler Pharmamulti Novartis seine Desktops zu einem virtuellen Superrechner. Aber auch Finanzinstitute setzen schon heute für aufwendige Business-Intelligence-Applikationen Grids ein. All diesen bisherigen kommerziellen Anwendungen gemeinsam ist ihre wissenschaftsähnliche, CPU-intensive Natur. Novartis berechnet Molekülstrukturen, andere machen Windkanalberechnungen oder Data Mining in Kundendaten.
«Normale», transaktionslastige Business-Applikationen wurden demgegenüber bisher noch kaum auf die Gitter migriert. Dies könnte sich aber schon bald ändern. Oracle, aber auch IBM, Sun, HP und Fujitsu Siemens versuchen mit viel Marketing- und Entwicklungsaufwand die Technik im Datacenter zu etablieren. Grids gelten als einer der zentralen Enabler für Utility Computing.
Aber längst nicht alle Anwendungen eignen sich fürs verteilte Rechnen. Zudem sind einige für den Business-Einsatz zentrale Fragen, wie die Sicherheit und die Kostenverrechnung, noch nicht abschliessend gelöst. Trotzdem spricht vieles dafür, dass die Gitter zum künftigen «Über-OS» in den Datencentern avancieren, denn Grids versprechen mehr, als nur brachliegende CPU-Leistung zu aktivieren.

Eine alte Idee

Das erste Mal öffentlich über Grid-ähnliche Systeme nachgedacht wurde 1965. Entwickler des Unix-Vorläufers Multics entwarfen die Vision von «computing as an utility», in der Rechenleistung wie Strom oder Wasser einfach von einem Netz abgezapft werden kann.
Ende der 80er- und Anfang der 90er-Jahre wurden die ersten Rechnervernetzungsprojekte an Hochschulen in Angriff genommen. An der Universität von Wisconsin wurde 1988 Condor gestartet. Damit konnten die Computer innerhalb eines LAN gepoolt werden. Neben dem Auffinden von geeigneten Ressourcen konnte Condor auch bereits schon den Absturz einzelner Rechner verkraften.
1992 startete die deutsche Genias Software Codine (Computing for distributed Network Environments). Die Software wurde 1999 in Gridware umgetauft und wurde nach dem Kauf von Genias durch Sun zur Sun Grid Engine.
Auch andere verteilte Rechenpionierprojekte wie Legion der Universität von Virginia und Nimrod der Monash Universität in Australien wurden Anfang der 90er Jahre gestartet. Für eine breite Anwendung ausserhalb von spezialisierten Forschungsprojekten waren aber damals die Netzwerke schlicht zu langsam.
Als die erste «kommerzielle» Anwendung eines Grid-ähnlichen Konzepts im grossen Stil kann Napster angesehen werden. Über die Peer-to-Peer-Tauschbörse und ihre wechselnden Nachfolger konnten und können Millionen von Anwendern die Rechen- und Speicherkapazitäten von Tausenden von weltweit verteilten Rechnern nutzen. Die Tauschbörsen zeigen aber auch eines der grundlegenden, noch nicht abschliessend gelösten Probleme des verteilten Rechnens auf: Es fehlt ein von allen involvierten Parteien akzeptiertes Business-Modell. Nicht nur die Urheberrechtsfrage ist noch ungelöst, auch die Frage, wie Speicher-, CPU-, Netzwerk- und Applikationsgebrauch im einzelnen verrechnet werden sollen, steht noch immer weitgehend offen.

Jenseits der CPU-Zweitnutzung

Bisherige Grid-Anwendungen waren fast ausschliesslich CPU-intensive wissenschaftliche Berechnungen, die sich leicht parallelisieren lassen. Sie können dank Grids auf ungenutzten Kapazitäten von Desktops statt auf einem teuren Grossrechner ausgeführt werden.
Aber die Nutzung bisher brachliegender CPU-Zeiten ist nur eine der Anwendungsmöglichkeiten. Im Datenbankumfeld, wo sich vor allem Oracle und IBM stark engagieren, verspricht Grid praktisch unbegrenztes Wachstum. So können je nach Bedarf beliebig günstige Blades zugeschaltet werden, was eine unbegrenzt skalierbare und ausfallsichere Datenbank auf Billigkomponenten möglich macht.
Dies war zwar schon mit bisherigen proprietären Clustertechniken lokal möglich. Grid beruht aber auf offenen, von allen massgebenden Mitspielern der Industrie getragenen Spezifikationen und Standards und lässt die Datenbank sozusagen dreidimensional wachsen. So wird auch das Poolen von entfernten Datenbanken mittels standardisierten Schnittstellen möglich. Dies kann beispielsweise zur Integration von verteilten Datenbanken im Unternehmen genutzt werden, oder der Schweizer Staat könnte so beispielsweise die vielen, föderal verteilten GIS-Datenbanken (Geographisches Informations System) verbinden.

Die Anbindung entfernter Rechenressourcen eröffnet in Zukunft aber auch den Application Service Providern (ASP) neue Möglichkeiten. So könnte beispielsweise ein Dienstleister die monatliche Gehaltsabrechnung über Grid-Schnittstellen direkt ins ERP des Abnehmers integriert ausführen.
Diese mögliche Anwendung zeigt das Integrationspotential von Grid auf. Denn eine heutige Business-Applikation kann nicht grundsätzlich als Grid-ungeeignet qualifiziert werden. Dies hängt von der Art ihrer Verwendung ab. So kann auch ein an sich nicht Grid-fähiges ERP-System entweder über Schnittstellen mit einem entfernten Modul verbunden werden, oder viele ERP-Systeme können innerhalb eines Grid parallel betrieben werden. Demgegenüber ist ein praktisch vollständiges Neu-Schreiben nötig, um eine Applikation selber Grid-fähig zu machen. Dieser Umstand dürfte die Verbreitung der Gitter in vielen Bereichen sicher noch länger bremsen.

Grid Services der Zukunft

Damit Grids ihr Integrationspotential in Zukunft auch ausspielen können, ist eine Verbindung dieses offenen Infrastuktur-Anbindungsstandards mit seiner schon etablierten Entsprechung auf Applikationsebene, den Web Services, nötig. Denn während Grid sozusagen die Grundlage für Computer-Ressourcen on Demand bildet, sind Web Services das Fundament von Applikationen auf Abruf. Genau dieser Verbindung nimmt sich die vom Global Grid Forum, einer Vereinigung von wissenschaftlichen Grid-Exponenten mit allen involvierten Industrievertretern, initiierte Open Grid Service Infrastructure (OGSI) an. Ziel sind interoperable Grid-Dienste, die die Hersteller allerdings unabhängig entwickeln können müssen, damit sich das Buisness-Modell für sie auch lohnt.
Als erster Schritt auf dem Weg der Verbindung mit Web Services wurden Anfang Jahr die beiden Spezifikationen WS Resource Framework und WS Notification veröffentlicht. WS Resource Framework beschreibt die Art und Weise, in der Web Services einzelne Ressourcen wie zum Beispiel Grids anzapfen, aber auch zur Verfügung stellen können. WS Notification stattet Web Services mit Publish-and-subscribe-Messaging-Fähigkeiten aus. So können Grids Informationen über ihren Status, wie Workload, freie Kapazitäten oder ausgefallene Komponenten, einem Grid Scheduler zur Verfügung stellen. Die Kombination der beiden Spezifikationen ermöglicht die Grid-Nutzung auch von an sich nicht Grid-fähigen Applikationen über Web Services.
Damit solche Visionen Wirklichkeit werden, sind aber schnellere Netzwerke nötig. 100 Gbps sind das Minimum, so Fachleute. Angesichts dessen, dass heute erst die Implementation von 10 Gbps in den Unternehmen am Anlaufen ist, dürfte hier ein weiterer Bremsklotz liegen. Unter Umständen muss auch das Internet-Protokoll durch ein stärker auf die Bedürfnisse von verteilten Berechnungen statt auf die Unzulänglichkeiten bisheriger Netzwerke ausgerichtetes Protokoll ersetzt werden.

Sicherheit und Bezahlung

Einer Grid-Implementation im grossen Stil stehen noch zwei weitere nicht genügend gelöste Fragen im Weg. Zum einen muss die Sicherheit von Grid Services mit entsprechenden offenen Standards einheitlich gewährleistet werden. Und zum zweiten, und das ist der wahrscheinlich noch wesentlich härtere Brocken, muss über die Verrechnungsmodelle der Dienste Einigkeit erzielt werden. Das Pricing ist nicht nur für allfällige Grid-ASPs wichtig, sondern mit zunehmender Serviceorientierung der IT-Abteilung auch für Unternehmens-interne Anwendungen zentral. Netzwerk-, Speicher-, CPU- und Applikationsnutzung; was soll nach welchem Modell und zu welchem Anteil wie in Rechnung gestellt werden? Die Abrechnungen werden so oder so komplex, und wenn jeder Einzelhersteller sein eigenes Modell auffährt, wird dies die Anwender verwirren und kaum zur Verbreitung der Technik beitragen.
In Sachen Sicherheit müssen Grids, vor allem wenn sie einmal über die Unternehmensgrenzen hinaus in Partnerfirmen oder zu ASPs gespannt werden sollen, beweisen, dass sie die Zugriffsrechte von Applikationen sicher kontrollieren und limitieren können. Solange ein Grid allerdings nicht die unternehmenskritische Infrastruktur tangiert und im Haus bleibt, dürfte dies heute schon hinreichend gewährleistet sein.

Strategisch einkaufen

Grids sind nicht nur Zukunftsmusik. Laut einer Befragung von 180 Unternehmen durch die Beratungsfirma Summit Strategies haben 4 Prozent bereits ein Grid implementiert, 12 Prozent evaluieren gegenwärtig die Möglichkeiten und 18 Prozent werden dies innerhalb der nächsten Monate tun. Ein stolzes Viertel aller Befragten erwartet denn auch, dass Grid für ihre IT-Infrastruktur in den nächsten drei Jahren sehr bis extrem wichtig wird. Die Hälfte hat allerdings noch gar keine Grid-Fahrpläne.
Grid steht für viele vielleicht noch nicht oben auf der Agenda. Aber es ist wie mit IPv6: Es lohnt schon heute, sich Gedanken über allfällige Anwendungen zu machen und bei künftigen Anschaffungen die Kompatibilität mit diesen Grid-Plänen im Auge zu behalten.

Die Grid-Architektur

Die grundsätzlichen Schichten der Grid-Infrastrukur des Globus Toolkit im Vergleich mit dem Internet Protokoll:

• Fabric Layer: Regelt den lokalen Zugriff auf Ressourcen wie Rechner, Speicher und Netzwerke.

• Connectivity Layer: Definiert Kommunikations- und Authentifizierungsprotokolle.

• Ressource Layer: Regelt das Verhandeln, Initiieren, Überwachen, die Kontrolle und die Bezahlung von gemeinsam genutzten Ressourcen.

• Collective Layer: Stellt Dienste und Protokolle zur Verwaltung der globalen Zustände des Grid zur Verfügung.

• Application Layer: Auf dieser Ebene sind die Anwendungen angesiedelt, die das Grid nutzen.

Eine klar definierte Grid-Architektur existiert allerdings eigentlich nicht. Zum einen, weil die einzelnen Schichten nicht wie in der schematischen Darstellung klar voneinander abgegrenzt sind. Zum anderen, weil Grid dauernd weiter entwickelt wird und so fortlaufenden Veränderungen unterworfen ist.

zur Illustration

Web-Quellen zum Thema Grid Computing

www.globus.org

Die Globus Alliance hat sich als Vereinigung von den Grid-Pionieren
an den Hochschulen der Entwicklung der Grundlagentechnik
verschrieben. Das Globus Toolkit ist heute der de-facto-Standard an
den sich auch die Middleware der kommerziellen Hersteller hält.

www.gridforum.org

Das Global Grid Forum (GGF) vereinigt universitäre Grid-Aktivisten und
alle massgebenden Hersteller aus Europa, den USA und dem Raum
Asien/Pazifik. Es hat sich auf Spezifikationen und Best Practices für
die Implementation von Grids beispielsweise in Form der OGSI (Open
Grid Services Infrastructure) spezialisiert.

http://gridcafe.web.cern.ch/gridcafe

Das europäische Kernforschungszentrum Cern in Genf gilt als eine
der Brutstätten von Grid. Grid-Cafe bietet eine informative Einführung
in das verteilte Rechnen.

www.gridoutreach.org.uk

Eine staatliche britische Seite zur Förderung von Grid Computing mit
grundlegenden Informationen, Business Cases und Erwiderungen
auf Kontra-Argumente.

www.gridtoday.com/gridtoday.html

Eine News-Site, die primär Themen rund um Grid behandelt.

Artikel kommentieren