Blick in die Zukunft per Data Mining

Das MIT bezeichnet Data Mining als eine jener Technologien, die die Welt massiv verändern werden. InfoWeek präsentiert die Konzepte, Strategien und Lösungen.

Artikel erschienen in Swiss IT Magazine 2001/13

Tante Emma - wir müssen die geplagte Dame hier leider aufs neue strapazieren - wusste noch höchstpersönlich, welche Vorlieben und Bedürfnisse jeder einzelne Kunde ihres sprichwörtlichen Ladens hatte. Es fiel ihr leicht, für Herrn Huber und Frau Weber das Gewünschte zu finden, und weil der Service so gut war, kauften die Kunden ihr gerne zusätzlich das passende Accessoire ab. Das Geschäft lief wie geschmiert.

Das durchschnittliche Unternehmen von heute, ganz zu schweigen vom multinationalen Grosskonzern, kennt seine Kunden nicht mehr persönlich. Dies liegt ebenso an der hohen Zahl und der weiten geografischen Verbreitung der Kunden wie daran, dass für einen bestimmten Kunden kaum je während der gesamten Geschäftsbeziehung der gleiche Mitarbeiter zuständig ist. Ganz anonym wird es, wenn Call Center und E-Commerce-Website zum einzigen Kontaktpunkt zwischen Anbieter und Abnehmer werden.

Diesem Informationsdefizit im modernen Geschäftsleben steht diametral ein überwältigender Datenberg gegenüber, der sich mit der IT-gestützten Abwicklung der gesamten Geschäftsbeziehung wie von selbst anhäuft. Die Kundenhistory aus Call-Center- und anderen CRM-Applikationen, Rechnungsdaten von ERP- und Transaktionen von POS-Systemen, Logfiles vom Webserver und viele andere Daten fallen laufend an und bleiben, nur schon aus juristischen und buchhalterischen Gründen, für längere Zeit in den Datenbanken beziehungsweise einem speziell zu diesem Zweck angelegten Data Warehouse gespeichert. Es wäre schön, wenn sich aus diesen ohnehin vorhandenen, an sich aber über die Aufzeichnungspflicht hinaus nutzlos gehorteten Daten, allenfalls ergänzt durch externe Quellen wie demografische Angaben und eingekaufte Adressen, geschäftsfördernde Informationen gewinnen liessen.

Data Mining: Die Definition

Der Prozess, grosse Datenbestände mittels geeigneter Auswahl und systematischer Suche anhand von statistischen Modellen und mit Artificial-Intelligence-Techniken softwaregestützt zu durchforsten, dadurch bisher unbekannte Beziehungen in den Daten zu entdecken und diese in geschäftsrelevante Informationen umzuwandeln, wird als Data Mining bezeichnet. Das Credo der Data-Mining-Experten: Wie Goldadern in einer konventionellen Mine findet man per Data Mining im Datenberg den Schlüssel zur kommerziellen Glückseligkeit. Das SAS Institute, ein langjähriger Hersteller von Data-Mining-Tools, sieht drei Hauptanwendungen von Data Mining im Unternehmen:

• Die profitabelsten Kunden finden und bei der Stange halten: Demografische Daten, gepaart mit dem Kaufverhalten bisheriger Kunden, helfen beim Aufbau einer langfristigen Geschäftsbeziehung durch Erkennen und Erfüllen der Bedürfnisse. So lässt sich zum Beispiel feststellen, dass Käufer eines bestimmten Produkts gleichzeitig oder später meist auch ein anderes Produkt erwerben - der Weg für gezieltes Cross-Selling und mehrstufige Angebotsfolgen steht offen.

• Den Markt für gezieltes Marketing segmentieren: Zielgerichtete Kampagnen kosten bei gleichem Erfolg zwanzig mal weniger als breitgestreute Mailings. Mit Data Mining lässt sich die bestehende und prospektive Kundenbasis in Zielgruppen gliedern. Ein Mailing kann so auf diejenigen Kunden konzentriert werden, die mit der grössten Wahrscheinlichkeit darauf ansprechen.

• Zukünftige Entwicklungen voraussehen und Faktoren identifizieren, die einen gewünschten oder unerwünschten Effekt bewirken: Data-Mining-Techniken ermöglichen die Optimierung von Produktionsprozessen und Geschäftsbeziehungen durch Vorwegnahme von Problemen, bevor diese überhaupt auftauchen. Klassisches Beispiel ist die Churn-Analyse im Telekom-Massengeschäft zur Ermittlung von Kunden, die demnächst abspringen werden.

Mit dem Postulat, dank Data Mining erhalte ein Unternehmen Einsicht in die Gedanken seiner Kunden, geht SAS denn aber doch etwas zu weit. Abgesehen davon, dass Gedankenlesen wohl nicht gerade wünschenswert wäre, haben die aus dem Data-Mining-Prozess resultierenden Erkenntnisse ihre klaren Grenzen. So liefert Data Mining die Information, dass eine berufstätige Hausfrau um die dreissig, die im eigenen Hause lebt und mit zwei Kindern gesegnet ist, im Durchschnitt alle drei Jahre einen neuen Mikrowellenherd mit Grill kauft - aber ob sie bei passendem Budget nicht lieber eine Kombination aus Backofen und Mikrowelle hätte, kann auch der gewiefteste Data-Mining-Anwender nicht herausfinden: Das künftige Kaufverhalten prognostiziert Data Mining auf Basis von Daten aus der Vergangenheit. Um herauszufinden, was ein Kunde wirklich will, kommt man nicht um die direkte Befragung herum.

Voraussetzungen für den Erfolg

Die Hauptvoraussetzung für erfolgreiches Data Mining ist eine genügend grosse Datenbasis. Je mehr relevante Datenfelder - in Statistikterminologie Variablen genannt - der einzelne Datensatz hat, desto eher können unbekannte Muster entdeckt werden. Und je mehr Datensätze vorliegen, desto geringer fallen Schätzfehler und Varianten aus.

Ebenso wichtig ist die Qualität der Daten. Hier hapert es bei vielen Quellen, die ja ursprünglich nicht für Data-Mining-Zwecke angelegt wurden: Eingekaufte demografische Daten sind oft unvollständig, Webkunden füllen das Anmeldeformular nur teilweise aus, Abrechnungsdaten stammen aus verschiedenen ERP-Systemen mit unterschiedlichen Feldern, vorhandene Angaben sind nicht aktuell. Intelligente Algorithmen können zwar nicht vorhandene Angaben interpolieren, was das Ergebnis jedoch verfälscht. Werden unvollständige Datensätze ganz weggelassen, verkleinert sich die Datenbasis - ein Dilemma. Die Selektion der Daten zu Beginn des Data-Mining-Prozesses ist ein ganz entscheidender Schritt.

Die riesigen Datenmengen - ein typisches Data Warehouse geht in den Terabyte-Bereich - setzen eine leistungsfähige IT-Infrastruktur mit viel Prozessorleistung und Storage-Kapazität voraus. Technologien wie Multiprozessor-Server und Clustering kommen Data-Mining-Anwendungen sehr entgegen. Auf der anderen Seite bringt Data Mining dem Unternehmen nur dann wirklich etwas, wenn sich die Techniken nicht nur von Statistik-Genies, sondern auch von Marketingexperten und Executives einsetzen lassen. Erst die Kombination von hochskalierbarer Hardware und Datenbanksoftware mit anwenderorientierten Tools und anschaulicher Visualisierung macht Data Mining auf breiter Ebene überhaupt möglich.

In spezialisierter Form gibt es Data Mining seit Jahrzehnten. Energielieferanten zum Beispiel nutzten statistische Techniken, um mit überraschender Genauigkeit den Ausfall von Generatoren vorauszusagen. In den neunziger Jahren setzten sich Data-Mining-Techniken vermehrt in der Geschäftswelt durch: Aufgrund der Verhaltensmuster finden Versicherungen, Kreditkartenunternehmen und Krankenkassen heraus, ob Kunden bei der Anmeldung lügen oder geneigt sind, sich in illegale Aktivitäten zu stürzen.

Reporting, OLAP und Data Mining

Im Umfeld von Data Mining fallen oft auch Begriffe wie OLAP, Reporting, Data Visualization und Analytical Applications. Dabei handelt es sich um unterschiedliche Techniken, die jedoch ineinander greifen und sich teilweise gegenseitig bedingen. Der generelle Unterschied: Während Techniken wie OLAP und Reporting ausschliesslich Resultate aus der Vergangenheit liefern, ermöglicht Data Mining einen gewissen Blick in die Zukunft. Analytische Anwendungen und Präsentationstechniken wie Reporting und Visualisierung dienen der Vermittlung und Interpretation der erlangten Ergebnisse.

Die Techniken im Detail

Data Mining lässt sich auf einen einfachen Vorgang reduzieren: Aus bestehendem und neuentdecktem Wissen wird ein statistisch-mathematisches Modell erstellt und mit Testdaten validiert. Dabei sind meist mehrere Iterationen von Modellerstellung und Test nötig. Danach wird das Modell angewendet: Aus den zu untersuchenden Daten generiert das Modell die gesuchten, vorher unbekannten Ergebnisse - das Gold ist gewonnen. Die Resultate interpretiert man mit Hilfe von Reporting-, OLAP- und Visualisierungstools.

Data-Mining-Hersteller SPSS unterscheidet zwei Ansätze der Modellbildung: Theoriegetriebenes Modeling versucht, vermutete Beziehungen in den Daten entweder zu bestätigen oder zu widerlegen. Der Anwender muss das Modell zum grössten Teil selbst definieren. Dabei kommen bekannte Methoden der Statistik wie Korrelation, T-Test und Regression zum Einsatz.

Beim datengetriebenen Modeling erstellt die Software aufgrund der in den Daten entdeckten Muster selbständig die Modelle - meist mehrere, aus denen der Anwender dann das geeignetste auswählt. Das System arbeitet dazu meist parallel mit einer Reihe fortgeschrittener Algorithmen und Artificial-Intelligence-Techniken; die Data-Mining-Tools auf dem Markt bieten allesamt mehrere Verfahren an. Die wichtigsten Methoden im Überblick:

• Cluster Analysis: Eine Datenreduktionstechnik, die Variablen oder Fälle aufgrund von Ähnlichkeiten zusammenfasst und so die Gesamtdatenmenge in deutlich unterscheidbare Gruppen einteilt. Typische Anwendung: Definition von Zielgruppen nach demografischen Merkmalen, Finanzdaten oder bisherigem Kaufverhalten.

• Decision Tree: Ein Entscheidungsbaum stellt in einer hierarchischen Struktur Regeln zur Einteilung der Daten in klar unterscheidbare Segmente dar. Beispiel: Unter insgesamt 7 Prozent Rücklauf nach einer Mailing-Aktion haben 15 Prozent Mieter, aber nur 5 Prozent Hausbesitzer geantwortet. Unter den Mietern wiederum war die höchste Rücklaufquote bei Personen mit hohem Einkommen zu finden. Der höchste Rücklauf ergab sich mit 45 Prozent bei Mietern hohen Einkommens, die gleichzeitig Sparkontoinhaber sind - ideale Zielgruppe für die nächste vergleichbare Kampagne. Der Decision-Tree-Algorithmus findet diese Regeln automatisch. Bekannte Decision-Tree-Verfahren sind CHAID (Chi-square Automatic Interaction Detector) und CART (Classification and Regression Tree).

• Rule Induction: Aus den Daten wird eine Vielzahl von "wenn-dann"-Regeln aufgrund von statistischer Signifikanz extrahiert - eine weitverbreitete Technik. Im Lauf der Suche überprüfen Rule-Induction-Algorithmen alle nur denkbaren Beziehungen in der gesamten Datenmenge und finden dabei sehr viele Regeln heraus, die sich teilweise gegenseitig widersprechen. Anhand von Angaben über Genauigkeit und abgedeckten Bereich lassen sich aus der Fülle gefundener Regeln die passendsten herausfiltern.

• Neural Networks: Neuronale Netzwerke sind nichtlineare Datenmodelle, die als Simulation des Gehirns konstruiert sind und von den Eingangsdaten "lernen": Die Parameter werden je nach Ergebnis automatisch angepasst und beim nächsten Durchlauf in der neuen Form verwendet. Zu Beginn der Analyse muss kein spezifisches Modell festgelegt sein, dafür lässt sich das erzeugte Modell oft nur schwer interpretieren. Neuronale Netzwerke sind nützlich für Szenarien mit zahlreichen Interaktionen zwischen den Daten wie Kreditbeurteilung und Risikoanalyse. Für neuronale Netzwerke existieren mehrere Verfahren; die bekanntesten heissen Multilayer-Perceptron (MLR) und Radial Basis Function (RBF).

• Association: Assoziationsmodelle prüfen, inwieweit die Werte einer bestimmten Variablen von einer anderen Variablen abhängen - zum Beispiel, welche Produkte häufig zusammen mit anderen Produkten gekauft werden. Die Paradeanwendung dieser Modeling-Technik ist denn auch die sogenannte Warenkorbanalyse (Market Basket Analysis) zur Untersuchung von Kaufmustern im Retail-Geschäft.

• Data Vizualization: Ein Bild sagt mehr als tausend Worte. Diese Binsenwahrheit trifft auf die Datenanalyse in besonderem Masse zu: Was anhand langer Zahlenkolonnen überhaupt nicht ersichtlich ist, tritt in einem passend formatierten Diagramm oft auf den ersten Blick zutage. Neben herkömmlichen Tools zur Datenvisualisierung wie Balken-, Torten- oder Streudiagramme bieten Data-Mining-Hersteller spezielle Werkzeuge zur Darstellung mehrdimensionaler Szenarien an.

Weites Feld von Anbietern

Data Mining ist stark im Trend. Die auf Data Mining spezialisierte Website Kdnuggets führt eine Liste von Data-Mining-Suiten mit Abdeckung des gesamten Knowledge-Discovery-Prozesses, die allein 50 Hersteller umfasst. Dazu kommen Anbieter einzelner Tools für Teilbereiche wie Klassifikation, Clustering, Warenkorbanalyse und Visualisierung.

Ein näherer Blick auf die Liste der einschlägigen Hersteller zeigt, dass sie sich vor allem aus drei Anbieterkategorien zusammensetzt: Data-Mining-Tools stammen von bekannten und weniger bekannten Herstellern von Statistiksoftware, darunter die klassischen Hersteller SPSS und SAS, die beide ein umfassendes Statistiksystem als Kern ihres Portfolios haben.

Oder es handelt sich um Business-Intelligence-Firmen wie Hummingbird, die ihre Data-Warehouse-Linie mit Mining-Produkten erweiterten. Die dritte Variante sind Startup-Unternehmen im E-Business-Bereich sowie altgediente Hersteller von Marketing-, Decision-Support- und CRM-Software wie Accrue.

Da Data Mining auch mit den modernsten Tools keine triviale Angelegenheit ist, offerieren die meisten Hersteller auch gleich die passenden Dienstleistungen von der Datenextraktion aus den bestehenden Quellen über die Modellbildung bis zur Durchführung der Analysen und Interpretation der Resultate.

Artikel kommentieren