cnt

CloudOps: zwischen Automa­tisierung, KI und passender Kultur

Cloud-Technologien sind längst nicht mehr nur ein technisches Fundament, ­sondern ein strategischer Hebel für Innovation, Effizienz und Wettbewerbsfähigkeit. Doch sie erfordern ein kontinuierliches Cloud Operations (CloudOps)-Management.

Artikel erschienen in Swiss IT Magazine 2025/09

     

Effizientes Cloud Operations (CloudOps)-Management ist für die Nutzung von Cloud-Technologien unerlässlich. Während die Migration in die Cloud nur der erste Schritt ist, entscheidet die kontinuierliche Optimierung der Cloud-Infrastrukturen über langfristige Wettbewerbsfähigkeit und Kosteneffizienz. Ohne eine strategische CloudOps-Ausrichtung können rasch unstrukturierte und undokumentierte Cloud-Service-Architekturen, unkontrollierte Kosten, signifikante Sicherheitsrisiken sowie betriebliche Störungen oder gar Ausfälle entstehen.


Eine fundierte CloudOps-Strategie basiert auf mehreren eng verzahnten und kontinuierlich zu entwickelnden Säulen.

Automatisierung und Orchestrierung

Im dynamischen Cloud-Umfeld sind manuelle Prozesse bekanntlich ein limitierender Faktor für Skalierung, Effizienz und Sicherheit. Als DevSecFinOps-Team muss man sich zu Infrastructure as Code (IaC) und GitOps verpflichten. IaC, zum Beispiel mit Terraform, gewährleistet Konsistenz, Reproduzierbarkeit und eine versionskontrollierte Infrastruktur. CI/CD-Pipelines automatisieren Deployments sowie Rollbacks und verringern Fehlerquellen.

Sicherheit und Compliance

Das geteilte Verantwortungsmodell in der Cloud erfordert eine klare Abgrenzung: Der Cloud-Anbieter verantwortet die Sicherheit der Cloud, der Kunde oder Managed Cloud Services Provider die Sicherheit in der Cloud. Eine granulare Kontrolle über Zugriffsrechte nach dem Least-Privilege-Prinzip, kombiniert mit Multi-Faktor-Authentifizierung (MFA), ist unabdingbar. Ebenso essenziell sind robuste Konfigurationen von Firewalls und virtuellen Netzwerken zur Segmentierung und Isolation von Ressourcen. Bei PaaS-Diensten sollte die zweckmässige Anwendung der integrierten Sicherheitsfunktionen umgesetzt werden. Dazu gehört auch die durchgängige Verschlüsselung von Daten, sowohl im Ruhezustand (at rest), während der Übertragung (in transit) und bei entsprechender ­Notwendigkeit beim Verarbeiten (in use). Regelmässige Sicherheitsaudits zur kontinuierlichen Überprüfung der Konfigurationen und Einhaltung von Sicherheitsrichtlinien sind für eine robuste Sicherheitslage unerlässlich. Sie helfen sicherzustellen, dass alle Cloud-Workloads den in der Cloud Governance definierten Standards und gegebenenfalls gesetzlichen Vorschriften entsprechen.

Leistungsüberwachung und -optimierung

Eine proaktive Leistungsüberwachung ist wichtig, um potenzielle Engpässe zu identifizieren, die Anwendungsleistung zu optimieren und rasch auf Probleme reagieren zu können. Der Einsatz von Tools zur Sammlung von Metriken, Logs und Traces ist grundlegend, wobei automatische Alarme bei Abweichungen von Schwellwerten eine schnelle Reaktion ermöglichen. Tiefe Einblicke in die Anwendungsleistung durch Application Performance Monitoring helfen, Engpässe auf Code-Ebene zu identifizieren und zu beheben. Zentralisierte Erfassung und Analyse von Log-Daten sowie Distributed Tracing sind entscheidend für die Fehlerbehebung und Performance-Analyse in komplexen Architekturen. Schliesslich ermöglicht die Analyse der Ressourcennutzung im Rahmen des Capacity Planning die präzise Vorhersage zukünftiger Anforderungen und vermeidet sowohl Über- als auch Unterprovisionierung.

Resilienz und Notfallwiederherstellung

Geschäftskontinuität erfordert ausfallsichere Cloud-Infrastrukturen. Die Verteilung von Anwendungen und Daten über mehrere Verfügbarkeitszonen oder Regionen minimiert das Risiko von Einzelausfällen durch Redundanz. Regelmässige Backups von Daten und Konfigurationen mit getesteten Wiederherstellungsmechanismen sind obligatorisch. Die Konfiguration von Systemen für einen automatischen Umschaltprozess auf redundante Ressourcen im Fehlerfall ist entscheidend. Detaillierte Disaster-Recovery-Pläne für den Umgang mit grösseren Katastrophen und deren regelmässige Tests gewährleisten die Wirksamkeit. Diesem Themenfeld wird allzu oft zu wenig Aufmerksamkeit geschenkt, da viele davon ausgehen, dass der Hyperscaler dafür verantwortlich ist. In vielen Fällen müssen die Services jedoch entsprechend konzipiert und gebaut sein, damit Resilienz und Notfallwiederherstellung gewährleistet sind.

Kostenmanagement

FinOps geht weit über die blosse Rechnungsprüfung hinaus. Es ist eine Kultur und ein Operating Model zur aktiven Steuerung der Cloud-Ausgaben. Grundlage dafür ist die detaillierte Einsicht in die Kosten pro Dienst, Team oder Projekt – ermöglicht durch konsistentes Tagging aller Ressourcen. Ebenso entscheidend ist das Festlegen von Budgets und Verwenden von Ausgabenprognosen, um frühzeitig gegensteuern zu können. Auch die Identifikation und Stilllegung ungenutzter sowie das Rightsizing überdimensionierter Ressourcen tragen massgeblich zur Kostensenkung bei. Schliesslich bietet die Inanspruchnahme von Reserved Instances, Savings Plans und Spot-Instanzen erhebliche Preisvorteile.

Herausforderungen und Lösungsansätze in CloudOps

CloudOps birgt auch signifikante Herausforderungen. Die Hyperscaler entwickeln ihre Services in atemberaubendem Tempo weiter, was einen ständigen Wandel und eine hohe Komplexität in der Cloud-Landschaft mit sich bringt. Um hier Schritt halten zu können, sind kontinuierliche ­Weiterbildung und ein proaktives Management von Service-Retirements unerlässlich. Ein weiterer kritischer Punkt ist der Fachkräftemangel und Skill-Gap: Qualifizierte CloudOps-Engineers sind rar. Gezielte Investitionen in die Weiterbildung bestehender Teams sind essenziell, um Know-how aufzubauen und langfristig zu sichern.


Organisatorische Silos und eine fehlende DevOps-Kultur, mit getrennten Entwicklungs- und Betriebsteams, führen zu Ineffizienzen. Eine gelebte Dev­Ops-Kultur, die auf Zusammenarbeit und gemeinsamer Verantwortung basiert, ist ein zentraler Erfolgsfaktor. Die Integration oder Transformation bestehender Legacy-Systeme ist komplex und erfordert oft erhebliche Anpassungen. Aber Vorsicht: Die Bindung an spezifische Dienste eines Cloud-Anbieters kann zu einem Vendor Lock-in führen, was die künftige Flexibilität einschränkt. Eine bewusste Entscheidung zwischen Cloud-nativer Optimierung und Portabilität ist hier gefragt.

Die Rolle von KI-Tools bei CloudOps

Künstliche Intelligenz – insbesondere Machine Learning (ML) – spielt eine immer wichtigere Rolle bei der Bewältigung der Komplexität und Datenflut in CloudOps.

AIOps (Artificial Intelligence for IT Operations) fasst diesen Trend zusammen und revolutioniert traditionelle IT-Betriebsmodelle. Viele AIOps-Funktionen sind bereits in den Plattformdiensten der Hyperscaler integriert und lassen sich auch ohne ML-Know-how effektiv nutzen. Die AIOps-Plattformen analysieren riesige Mengen an Betriebsdaten in Echtzeit und erkennen Muster und Anomalien, die Menschen oft entgehen würden. Dies ermöglicht eine proaktive Problemerkennung und -vorhersage. Bei Problemen analysieren AIOps-Systeme korrelierte Alarme und Datenpunkte, um die tatsächliche Ursache schnell zu identifizieren. Dadurch wird die «Mean Time to Recover» drastisch reduziert und resultiert in einer automatisierten Ursachenanalyse. KI-Algorithmen lernen Nutzungsverhalten von Cloud-Ressourcen und geben präzise Empfehlungen für Kostenoptimierungen. Dazu zählen automatisches Rightsizing und fundierte Kauf­entscheidungen für Reserved Instances, was eine intelligente Kostenoptimierung darstellt. Auch im Bereich Sicherheit leistet AIOps einen wichtigen Beitrag: Durch das Lernen des normalen Benutzer- und Systemverhaltens erkennt KI verdächtige Aktivitäten und potenzielle Bedrohungen in Echtzeit und trägt so zur Sicherheitsanalyse und Bedrohungserkennung bei.

Ein iterativer Prozess

Laut dem Gartner Planning Guide 2025 für IT Operations und Cloud Management verschiebt sich der Fokus von der traditionellen Bereitstellung hin zu Governance, Enablement und Wertschöpfung. Anstatt Infrastruktur und Services als einmalige Projekte zu behandeln, sollten Cloud-Teams sie als Produkte betrachten. Das bedeutet, eine standardisierte, wiederverwendbare und Self-Service-fähige Plattform zu schaffen, die es Entwicklern ermöglicht, benötigte Ressourcen schnell und einfach bereitzustellen.


Die Optimierung von CloudOps ist ein kontinuierlicher, iterativer Prozess, der strategische Planung, den Einsatz geeigneter Technologien und eine tief verwurzelte Kultur der kontinuierlichen Verbesserung erfordert. Unabhängig von der Grösse des IT-Teams können Unternehmen durch die konsequente Fokussierung auf die vier Kernaspekte Automatisierung, Sicherheit, Performance und Kostenmanagement erhebliche Vorteile erzielen. Die Weiterentwicklung der Dev­Ops-Prinzipien und der Einsatz von AIOps-Lösungen werden die Effizienz und Effektivität von CloudOps in den kommenden Jahren weiter verbessern. Die verschmelzende Zusammenarbeit zwischen DevSecFinOps-Teams und dem Business für die Entwicklung neuer Produkte und Dienstleistungen, bei welchen Cloud Services zum Einsatz kommen, ist fundamental wichtig. Unternehmen, die diese Disziplin meistern, werden nicht nur ihre Cloud-Investitionen optimal nutzen, sondern auch agiler, widerstandsfähiger und innovativer im Wettbewerb bestehen.

Der Autor

Claudio Lässer leitet bei Aveniq den Bereich Cloud & Platform Services mit über 60 Mitarbeitenden in fünf cross-funktionalen Teams. Mit mehr als 15 Jahren Erfahrung in der IT begleitet er Unternehmen auf ihrem Weg in die Cloud und gestaltet deren digitale Zukunft mit innovativen und hochautomatisierten Lösungen. Aveniq ist ein Schweizer IT-Dienstleister mit rund 550 Mitarbeitenden.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Welche Farbe hatte Rotkäppchens Kappe?
GOLD SPONSOREN
SPONSOREN & PARTNER