AIOps - Artificial Intelligence für IT Operations

Von Martin Andenmatten

Weil ohne künstliche Intelligenz die IT der Zukunft nicht mehr zu steuern ist.

Artikel erschienen in Swiss IT Magazine 2018/09

     

Der ungebremste Drang des Business nach Digitalisierung, die damit verbundene Vernetzung von Produkten zu Services sowie die Dynamik der Cloud und das "Everything as a Service" stellt alle Unternehmen und IT-Organisationen vor ein grosses Problem: wie lassen sich die hohen Anforderungen an Verfügbarkeit, Performance, Kosten, Sicherheit und Compliance der IT Dienste in einem hybriden Multi-Cloud-Ökosystem wirksam steuern, wenn sich die Zusammensetzung der Komponenten und Beteiligten praktisch täglich ändert? Manuell ist dies eine "Mission Impossible". Aber auch automatisierte Roboter können hier nicht mehr genügen, weil die permanente Anpassung von Regeln und Workflows der dynamischen Realität hinterherhinkt. Die Zukunft von IT Operations liegt nur noch in der Anwendung von künstlicher Intelligenz.

Eine schier unlösbare Herausforderung, in die man einfach so reinstolpert

Was noch vor wenigen Jahren für viele regulierte Unternehmen fast undenkbar war, ist mittlerweile akzeptierte Realität. Viele CIOs haben mittlerweile eine Cloud-first oder gar eine Cloud-only Strategie eingeschlagen, weil ohne diese Cloud Technologie die zeitnahe Skalierung von IT Ressourcen der Digitalisierungsdrang und die agile Entwicklung nicht mehr befriedigend unterstützen kann. Mit der Akzeptanz der Cloud im Unternehmen wächst auch deren vielfältigen Einsatzmöglichkeiten. Heute ist durch die Nutzung von Multi-Cloud-Infrastrukturen, -Anwendungen und -Services ein enormes Leistungspotential entstanden, das von Unternehmen genutzt werden will. Die sicherheitstechnischen Lösungen erlauben es uns heute problemlos, den Workload der lokalen Rechenzentren auf verschiedene Public-Cloud-Dienste zu verlagern und je nach aktuellen Preisen jeweils neu zu konfigurieren. Das Angebot an Software-as-a-Service Anwendungen ist riesig und bietet Unternehmen eine beispiellose Flexibilität, um den sich ändernden Anforderungen digitaler Unternehmen gerecht zu werden. SW-Entwickler nutzen neueste Features, Microservices und Container-Lösungen von unterschiedlichen PaaS-Anbietern, entwickeln und testen hochautonom, weil die internen IT-Abteilungen nicht in der Lage sind, die dazu notwendigen Infrastrukturen genügend schnell bereit zu stellen und anschliessend auch wieder abzubauen.
Die Frage ist nun, wie lässt sich so eine Umgebung aktiv steuern? Die heute traditionellen und oft isolierten Werkzeuge sind unfähig, eine sichere, effiziente und agile Umgebung zu schaffen, welche den digitalen Anforderungen entspricht. Die herkömmlichen Monitoring- und System-Management-Tools sind auf stabile Umgebungen ausgerichtet und vermögen die sich ständig ändernde Konstellation der hybriden Cloud-Implementierungen nicht mehr abzubilden. Infrastrukturprobleme müssen mit immer höheren Geschwindigkeiten beantwortet werden. Fehlerhafte Systemzustände lassen sich nicht mit vernünftigen Aufwand feststellen und den verursachenden Providern zuordnen, wenn sich laufend deren Zusammensetzung ändert. Bezahlt wird nur was genutzt wird – aber dies muss überwacht und rechtzeitig reduziert werden. Und die Nachvollziehbarkeit der Einhaltung von Compliance und Gesetzesvorgaben muss künftig in Realtime sichergestellt werden und lässt sich nicht mehr einfach mit einem jährlichen Audit feststellen.


Die modernen IT Technologieumgebungen sind zu komplex geworden, um diese noch mit traditionellen Methoden zu steuern. Die schleichende Umstellung auf Multi-Cloud-Umgebungen, DevOps, Microservice-Architekturen und das rasche Wachstum der Datenmenge erzeugen eine Komplexität, der die Systemadministratoren in IT-Abteilungen zunehmend nicht mehr gewachsen sind. Die Verfügbarkeit, Performance und Sicherheit ist in einem digitalen Unternehmen eine existentielle Notwendigkeit. Ohne einen neuen und modernen Ansatz agieren IT-Teams nur noch, anstatt aktiv den zunehmenden Innovationsdruck zu unterstützen. Artificial Intelligence in IT Operations, AIOps ist so ein Ansatz, welcher gemäss Gartner bis 2022 von 40% aller grossen Unternehmen verwenden werden, um grosse Daten- und maschinelle Lernfunktionen zu kombinieren und um damit Überwachungs-, Service-Desk- und Automatisierungsprozesse und -aufgaben zu unterstützen und teilweise zu ersetzen. Heute beschäftigen sich gerade mal 5% mit AIOps.

Was ist Artificial Intelligence – was ist AIOps?

Artificial Intelligence (AI) ist nicht wirklich neu. Bereits 1955 hatten die Herren John McCarthy, Marvin Minsky, Nathan Rochester und Claude Shannon einen Vorschlag für ein Forschungsprojekt anlässlich der Dartmouth Conference zum Thema Artificial Intelligence eingereicht. Es sollte herausgefunden werden, wie man Maschinen dazu bringen kann, die Sprache zu benutzen, Abstraktionen und Konzepte zu bilden, Probleme zu lösen, welche den Menschen vorbehalten sind, und sich selbst zu verbessern. Man war der Meinung, dass bei einem oder mehreren dieser Fragestellungen ein bedeutender Fortschritt erzielt werden kann, wenn eine sorgfältig ausgewählte Gruppe von Wissenschaftlern einen Sommer lang gemeinsam daran arbeitet. Nun – es ging dann doch etwas länger als einen Sommer, bis die künstliche Intelligenz auch kommerziell genutzt werden konnte. Was man völlig unterschätzte, waren die notwendigen Datenmengen und auch die Rechenleistungen, um diese Technologie ausserhalb der Forschungslabors zur Anwendung zu bringen.


Heute sieht dies ganz anders aus. Heute haben wir mit den digitalen Services, Internet-of-Things und sozialen Netzwerken die exponentiell zunehmenden Datenmengen einerseits – und mit der skalierbaren Cloud Infrastrukturen andererseits auch die notwendige Rechenpower.
Artificial Intelligence ist gemäss der Encyclopedia Britannica die Fähigkeit eines digitalen Computers oder computergesteuerten Roboters, Aufgaben auszuführen, die häufig mit intelligenten Wesen verbunden sind, respektive die mit den für den Menschen charakteristischen intellektuellen Prozessen ausgestattet sind, wie z.B. der Fähigkeit, zu denken, Bedeutung zu entdecken, zu verallgemeinern oder aus früheren Erfahrungen zu lernen. Heute verbindet man Artificial Intelligence auch oft mit den Begriffen "Machine Learning" oder "Deep Learning, wobei AI als Überbegriff von allen drei Themen verwendet werden kann.

ISACA hat 2015 AI und Machine Learning wie folgt definiert: "Die Nutzung von Computerressourcen, die lernfähig sind (Erwerb und Anwendung von Wissen und Fähigkeiten, die die Erfolgsaussichten maximieren). Diese kognitiven Systeme haben das Potenzial, aus geschäftsbezogenen Interaktionen zu lernen und evidenzbasierte Antworten zu liefern, um das Denken und Handeln von Organisationen zu verändern."


Der Begriff AIOps – Artificial Intelligence for IT Operations wurde von Gartner bereits im Jahr 2014 geprägt. Die offizielle Definition ist: "AIOps platforms utilize big data, modern machine learning and other advanced analytics technologies to directly and indirectly enhance IT operations (monitoring, automation and service desk) functions with proactive, personal and dynamic insight. AIOps platforms enable the concurrent use of multiple data sources, data collection methods, analytical (real-time and deep) technologies, and presentation techno­logies."

AIOps hat sich aus der Notwendigkeit entwickelt, die hoch anspruchsvollen Big-Data und Advanced Analytics Lösungen mit adäquaten Mitteln zu überwachen und zu steuern, weil die klassischen Ampelsysteme (Rot, Gelb, Grün) sowie die vielen manuellen Interventionen im Betrieb nicht mehr genügten.

Welche Einsatzgebiete eröffnen sich?

Die Anwendung von Artificial Intelligence ist für alle Bereiche im digitalen Unternehmen von grossem Nutzen. Entsprechend ist auch das Interesse gross, in diese Technologien zu investieren um dies für die Zukunft zu nutzen. Aber gerade im Umfeld von IT Operations bieten sich einzigartige Möglichkeiten, Artificial Intelligence in IT Operations bereits heute einzusetzen und einen echten Mehrwert für das digitale Business zu erzielen. Das Einsatzgebiet erstreckt sich in allen Bereichen des IT Operations: von der Überwachung der Services und Komponenten, der Analyse der Monitoring-Ergebnisse und der entsprechenden Reaktion aufgrund von Fehlverhalten oder Optimierungspotentialen.


Grosse Datenmengen sind heute in IT-­Operations Umgebungen bereits vorhanden. Einerseits viele Erfahrungsdaten in Form von Knowledge-Systemen, Incident- und Problemlösung-Daten, CMDBs und Change-Protokolle. Andererseits auch die vielen Logs von den unterschiedlichen Systemen, Netzwerken, Datenbanken und Applikationen oder aber auch von den Cloud-Providern via API - Schnittstellen. All diese historischen und Echtzeitdaten sind enorm wichtig für die Analyse von Systemzuständen und Einhaltung von Compliance-Vorschriften. Um in einem solchen Umfeld im Problemfall schnell reagieren zu können, müsste man mit sehr viel Manpower versuchen, die unterschiedlichen Datenquellen laufend auszuwerten, Ursachen zu analysieren, Lösungen auszuarbeiten und diese zu implementieren. Dies wird in der Regel nicht mehr gelingen, weil zum einen nicht mehr, sondern weniger menschliche Ressourcen zur Verfügung stehen, aber andererseits die Zeit nicht reicht, um dies für das Business zufriedenstellend bereitzustellen.
Heute werden in Unternehmen innerhalb IT-Operations immer noch ein Grossteil der Zeit mit administrativen Aufgaben wie der Erstellung von Zeitplänen oder Berichten verbracht. Genau das sind die Aufgaben, die in naher Zukunft am ehesten automatisiert werden können. Auch neigen Menschen oft dazu, vom Standard-Prozess abzuweichen und Fehler zu begehen. Hier kann AI helfen, viel präziser und zuverlässiger zu wirken.


In einer AIOps-Umgebung benötigen die Mitarbeiter von IT-Operations andere, erweiterte Fähigkeiten, um die Arbeiten der Maschinen zu überwachen und nicht mehr bloss, die Arbeit selbst durchzuführen. IT-Operations Mitarbeiter benötigen ein ausreichendes Verständnis dafür, wie maschinelle Lernanalysen funktionieren. Wenn sie die Kontrolle an die Maschine übergeben, können sie prüfen, wie sich diese automatisierte Steuerung entwickelt und ihre Aufgabe erfüllt. Mit AIOps wechselt IT-Operations von einem manuellen Prozess zu einem Auditing- und Anpassungsprozess, bei dem das System entsprechend den Änderungen in der Umgebung optimiert wird, die die Algorithmen der Maschinen lernen müssen.
IT-Operation Teams übernehmen bei anwendungszentrierten Infrastrukturen, DevOps und agiler Softwareentwicklung zunehmend die Verantwortung für die Lösung von Applikationsproblemen, mit denen Softwareentwickler zuvor beschäftigt waren. IT-Operations müssen jetzt auch die Sprache der Entwickler sprechen lernen und Anwendungstechnologien wie Microservices, Container und Continuous Integration/Continuous Deployment verstehen um die richtige Methode zur Messung ihrer Auswirkungen auf das Service-Ökosystem zu bestimmen. So muss IT-Operations mit Hilfe von AIOps beantworten können:
• Verarbeitet eine Anwendung die Daten korrekt und müssen wir Datenprobleme korrigieren?
• Welche Teile des Codes verursachen Probleme?
• Führt die Codeausführung oder ein Datenbankaufruf zu einer langsamen Antwortzeit?
• Beeinträchtigt ein Drittanbieterdienst oder eine API die Performance?
• Ist die automatische Skalierung in Cloud-Diensten (AWS, Azure) Leistung zum richtigen Preis?
• Werden mehrere APIs oder externe SaaS-Dienste verwendet, welche die lange Antwortzeit verursachen?

Gerade im Bereich Verfügbarkeit und Performance bietet AIOps wertvolle Unterstützung, in dem Nutzer- und Systemverhalten besser und schneller analysiert und mit entsprechenden Workload-Anpassungen reagiert werden kann.


Sicherheit ist zudem ein weiterer Aspekt im IT-Operations Umfeld von digitalen Unternehmen. Es ist wichtig zu verstehen, was ein Sicherheitsereignis im operativen Kontext ist und wie darauf reagiert werden muss. Mit dem Einsatz von AIOps wird ein Sicherheitsereignis wie eine Denial-­of-Service-Attacke oder Ransomware-Angriffe wahrscheinlich schneller durch Machine Learning erkannt. Zu wissen, wie man sie als Sicherheitsfehler und nicht als einfacher Betriebsfehler identifiziert und entsprechend darauf reagiert, ist eine kritische Fähigkeit moderner IT-Organisationen. In der AIOps-Umgebung kann dadurch ein grösse­res Sicherheitsbewusstsein entwickelt werden.

Wie geht man vor?

AIOps ist nicht einfach eine weitere Maturitätsstufe in der Implementierung von IT Service Management gemäss ITIL® oder COBIT®. Diese Frameworks wurden oft sehr starr umgesetzt und eignen sich nicht als Basis für die Umstellung auf ein modernes, digitales Unternehmen. Es braucht hier ein Umdenken, wie die zwar immer noch wichtigen Prinzipien in einer agilen Welt angewendet werden können.

Wichtig ist auch, dass sämtliche Daten aus den Bereichen IT Service Management, IT Operations Management und IT Automation als der Big Data Datentopf für AIOps betrachtet werden kann. Möglichst sämtliche Daten müssen bekannt und in Betracht gezogen werden können, um das Verhalten eines Systems überwachen zu können. Eine Übersicht über all diese Daten ist daher in der Regel ein erster wichtiger Schritt, um zu verstehen, wo welche Informationen gefunden werden können.


Es geht bei der Implementierung von AIOps auch nicht darum, die bestehenden Werkzeuge und Tools abzulösen. Letztlich muss AIOps ein System bilden, in dem Datenströme frei von mehreren IT-Datenquellen in eine grosse Datenplattform fliessen kann, dass Daten bei der Aufnahme analysiert und mit Daten aus anderen Quellen und Typen laufend nachbearbeitet werden können. Eigenständiges Machine Learning wird verwendet, um die Analysen und Algorithmen zu verwenden und zu modifizieren und auf Basis der Erkenntnisse automatisierte Workflows auszulösen. Das AIOps-System muss sich anpassen und reagieren können, wenn sich Datenmengen, -typen und -quellen ändern.
Folgende Schritte empfehlen sich für eine erfolgreiche Implementierung von AIOps:
1. Trennen von Hype und Realität: Lernen und verstehen, was AI und Machine Learning ist und wie dies im IT Operations Umfeld helfen kann
2. Inventar über alle vorhandenen Daten, Logs und Systeme erstellen. Es muss eine richtige Einstellung hinsichtlich Wichtigkeit und Kritikalität der vorhandenen Daten im IT Operations-Team erreicht werden, welche später in die Algorithmen der AIOps-Plattform eingelesen werden.
3. Konkrete Use Cases erstellen für heute bekannte Frage- und Problem-Stellungen (z.b. Lange Ursachenanalyse, grosses Störungsaufkommen, Performance-Probleme ect.)
4. Evaluation und Auswahl einer AIOps Plattform. Die AIOps Plattformen müssen Informationen aus unterschiedlichen Quellen und herstellerneutral verarbeiten können. Sie müssen in der Lage sein, aktuelle wie auch historische Daten mit verschiedenen Echtzeit-Monitoring-Systemen zu kombinieren und mittels Machine Learning zu analysieren. Sicherstellen, dass die Disziplinen Service Desk, Monitoring und Automation abgedeckt werden.
5. Erstellen eines praktischen, stufenweisen Umsetzungsplans auf Basis klarer Strategie
6. Learning by Doing. Der Weg ist das Ziel.


AIOps wird auch Veränderungen auf das Betriebsmodell und die Organisationsstrukturen der IT haben. Jeder in der Organisation, sei es der IT Operations Manager, der Systemadministrator oder Service Desk Mitarbeiter – alle müssen sich mit der Veränderung vertraut machen. Es bieten sich auch enorme Möglichkeiten für all jene, welche Veränderung als Chance erkennen. Die Zukunft klopft nicht an. Sie tritt ein.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Vor wem mussten die sieben Geisslein aufpassen?
GOLD SPONSOREN
SPONSOREN & PARTNER