Vorhersage der Kundenabwanderung mit H2O

Die Vorhersage der Kundenabwanderung ist ein allgemein bekanntes Problem im Bereich Customer Relationship Management (CRM) und ein entscheidendes Element moderner Marketingstrategien. Die Kundenbindung ist für Unternehmen sehr wichtig, und wir werden sehen, wie H2O eine wichtige Rolle in der Data-Science-Pipeline spielen kann, indem es schnell Vorhersagemodelle erstellt und die Erkenntnisse dann zur Steigerung der Kundenbindung nutzt.

Der verwendete Datensatz gehört zur KDD Cup Challenge 2009. Auf diese kann auch unter Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow in der Flow-Schnittstelle zugegriffen werden. Alternativ können Sie über die folgenden Links auf die Trainings- bzw. Validierungsdaten zugreifen :

  • Trainingsdaten
  • Validierungsdaten

Hier ist die Flow-Pipeline, mit der wir das Training und die Vorhersagen durchführen werden.

Pipeline für maschinelles Lernen

Importieren /Hochladen von Daten

Geben Sie den Dateipfad in das automatisch vervollständigende Sucheingabefeld ein und drücken Sie die Eingabetaste. Wählen Sie die Datei aus den Suchergebnissen aus und bestätigen Sie sie, indem Sie auf den Link Add All klicken. Wir können auch eine lokale Datei hochladen oder direkt die URL des Datensatzes angeben.

Mal sehen, wie wir die Trainingsdaten in die Flow-Schnittstelle importieren können.

Daten analysieren

Der nächste Schritt besteht darin, die importierten Daten zu analysieren. Wir können die Art der Parser auswählen, aber meistens ermittelt H2O dies automatisch für uns. Während der Parse-Setup-Seite können wir die Spaltennamen sowie die Spaltentypen auswählen. Ändern Sie für die Churn-Spalte den Datentyp von numeric in enum , der für eine kategoriale Variable steht. Die Churn-Spalte ist die Antwortspalte, sodass diese Spalte während des Modellerstellungsprozesses automatisch in die Dummy-Variablen erweitert wird.

Wenn Sie anschließend auf die Schaltfläche parse klicken, werden die Daten analysiert und in ein .hex -Format konvertiert.

Es ist auch möglich, die einzelnen Etikettendaten zu visualisieren, indem Sie auf die entsprechende Spalte klicken. Lassen Sie uns die Churn-Spalte und ihre verschiedenen Verteilungen visualisieren.

Modelle erstellen

Bevor wir mit dem Modellbau fortfahren, müssen zwei wesentliche Dinge getan werden:

  • Fehlende Daten unterstellen

Klicken Sie auf der Registerkarte Dataauf die Option Unterstellen und wählen Sie ein Kriterium für die Unterstellung der ausgewählten Spalten des Datensatzes.

  • Aufteilen von Daten in Trainings- und Testsätze.

Das Aufteilen von Daten wird durch Angabe des Aufteilungsverhältnisses erreicht, und dementsprechend wird ein Trainings- und ein Testrahmen erstellt. Klicken Sie auf das Dropdown-Menü Daten und wählen Sie Rahmen teilen.

  • Erstellen eines GBM-Modells

Sobald Sie mit der Untersuchung der Daten fertig sind, können Sie mit der Erstellung eines Vorhersagemodells beginnen, das in Produktion genommen wird. Klicken Sie auf die Registerkarte Model und Flow zeigt eine Liste aller verfügbaren Algorithmen an.H2O unterstützt eine Vielzahl von Algorithmen von GLM über GBM, AutoML bis DeepLearning. Hier ist die komplette Liste:

Für diesen Artikel werden wir eine allgemeine Boosting-Maschine (GBM) erstellen, die eine vorwärts lernende Ensemble-Methode ist. Wählen Sie die Datensätze und die Antwortspalte aus, belassen Sie alle anderen Optionen als Standard und erstellen Sie dann das Modell.

Modelle anzeigen

Wir können auch die Modellergebnisse anzeigen, die uns helfen, schnell zu beurteilen, wie sich unser Modell entwickelt hat. Wir erhalten die Scoring-Historie, die ROC-Kurven, die variable Wichtigkeit und viele andere relevante Informationen, die sehr hilfreich sein können, um die Leistung unseres Modells zu beurteilen.

Kategorien: Articles

0 Kommentare

Schreibe einen Kommentar

Avatar-Platzhalter

Deine E-Mail-Adresse wird nicht veröffentlicht.