Vorhersage der Kundenabwanderung mit H2O
Die Vorhersage der Kundenabwanderung ist ein allgemein bekanntes Problem im Bereich Customer Relationship Management (CRM) und ein entscheidendes Element moderner Marketingstrategien. Die Kundenbindung ist für Unternehmen sehr wichtig, und wir werden sehen, wie H2O eine wichtige Rolle in der Data-Science-Pipeline spielen kann, indem es schnell Vorhersagemodelle erstellt und die Erkenntnisse dann zur Steigerung der Kundenbindung nutzt.
Der verwendete Datensatz gehört zur KDD Cup Challenge 2009. Auf diese kann auch unter Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow
in der Flow-Schnittstelle zugegriffen werden. Alternativ können Sie über die folgenden Links auf die Trainings- bzw. Validierungsdaten zugreifen :
- Trainingsdaten
- Validierungsdaten
Hier ist die Flow-Pipeline, mit der wir das Training und die Vorhersagen durchführen werden.

Importieren /Hochladen von Daten
Geben Sie den Dateipfad in das automatisch vervollständigende Sucheingabefeld ein und drücken Sie die Eingabetaste. Wählen Sie die Datei aus den Suchergebnissen aus und bestätigen Sie sie, indem Sie auf den Link Add All
klicken. Wir können auch eine lokale Datei hochladen oder direkt die URL des Datensatzes angeben.

Mal sehen, wie wir die Trainingsdaten in die Flow-Schnittstelle importieren können.

Daten analysieren
Der nächste Schritt besteht darin, die importierten Daten zu analysieren. Wir können die Art der Parser auswählen, aber meistens ermittelt H2O dies automatisch für uns. Während der Parse-Setup-Seite können wir die Spaltennamen sowie die Spaltentypen auswählen. Ändern Sie für die Churn-Spalte den Datentyp von numeric in enum , der für eine kategoriale Variable steht. Die Churn-Spalte ist die Antwortspalte, sodass diese Spalte während des Modellerstellungsprozesses automatisch in die Dummy-Variablen erweitert wird.

Wenn Sie anschließend auf die Schaltfläche parse
klicken, werden die Daten analysiert und in ein .hex
-Format konvertiert.

Es ist auch möglich, die einzelnen Etikettendaten zu visualisieren, indem Sie auf die entsprechende Spalte klicken. Lassen Sie uns die Churn-Spalte und ihre verschiedenen Verteilungen visualisieren.

Modelle erstellen
Bevor wir mit dem Modellbau fortfahren, müssen zwei wesentliche Dinge getan werden:
- Fehlende Daten unterstellen
Klicken Sie auf der Registerkarte Data
auf die Option Unterstellen und wählen Sie ein Kriterium für die Unterstellung der ausgewählten Spalten des Datensatzes.

- Aufteilen von Daten in Trainings- und Testsätze.
Das Aufteilen von Daten wird durch Angabe des Aufteilungsverhältnisses erreicht, und dementsprechend wird ein Trainings- und ein Testrahmen erstellt. Klicken Sie auf das Dropdown-Menü Daten und wählen Sie Rahmen teilen.

- Erstellen eines GBM-Modells
Sobald Sie mit der Untersuchung der Daten fertig sind, können Sie mit der Erstellung eines Vorhersagemodells beginnen, das in Produktion genommen wird. Klicken Sie auf die Registerkarte Model
und Flow zeigt eine Liste aller verfügbaren Algorithmen an.H2O unterstützt eine Vielzahl von Algorithmen von GLM über GBM, AutoML bis DeepLearning. Hier ist die komplette Liste:

Für diesen Artikel werden wir eine allgemeine Boosting-Maschine (GBM) erstellen, die eine vorwärts lernende Ensemble-Methode ist. Wählen Sie die Datensätze und die Antwortspalte aus, belassen Sie alle anderen Optionen als Standard und erstellen Sie dann das Modell.

Modelle anzeigen
Wir können auch die Modellergebnisse anzeigen, die uns helfen, schnell zu beurteilen, wie sich unser Modell entwickelt hat. Wir erhalten die Scoring-Historie, die ROC-Kurven, die variable Wichtigkeit und viele andere relevante Informationen, die sehr hilfreich sein können, um die Leistung unseres Modells zu beurteilen.

0 Kommentare