Predire il churn dei clienti usando H2O

Predire il churn dei clienti è un problema ragionevolmente noto nello spazio del Customer Relationship Management (CRM) ed è un elemento cruciale delle moderne strategie di marketing. Mantenere un cliente è molto importante per le organizzazioni e vedremo come H2O può svolgere un ruolo fondamentale nella pipeline di data science creando rapidamente modelli predittivi e quindi utilizzando gli insight per aumentare la fidelizzazione dei clienti.

Il set di dati utilizzato appartiene alla KDD Cup Challenge 2009. È possibile accedere anche sotto Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow nell’interfaccia Flow. In alternativa, utilizzare i seguenti link per accedere rispettivamente ai dati di formazione e validazione :

  • Dati di allenamento
  • Dati di convalida

Ecco la pipeline di flusso che utilizzeremo per eseguire l’allenamento e le previsioni.

Macchina di Apprendimento Pipeline

Importazione /Caricamento Dati

Immettere il percorso del file in completamento automatico di Ricerca e premere Invio. Selezionare il file dai risultati della ricerca e confermarlo facendo clic sul collegamento Add All . Possiamo anche caricare un file locale o menzionare direttamente l’URL del set di dati.

Vediamo come possiamo importare i dati di allenamento nell’interfaccia flow.

Analisi dei dati

Il passo successivo è analizzare i dati importati. Possiamo selezionare il tipo di parser, ma la maggior parte delle volte, H2O lo calcola automaticamente per noi. Durante la pagina di configurazione di analisi, possiamo scegliere i nomi delle colonne e i tipi di colonne. Per la colonna churn, cambiamo il tipo di dati da numerico a enum, che sta per una variabile categoriale. La colonna Churn è la colonna di risposta, quindi, durante il processo di costruzione del modello, questa colonna verrà automaticamente espansa nelle variabili dummy.

Successivamente, quando si preme il pulsante parse, i dati vengono analizzati e convertiti in un formato .hex.

È anche possibile visualizzare i dati di ciascuna etichetta facendo clic sulla colonna corrispondente. Visualizziamo la colonna churn e le sue varie distribuzioni.

Modelli di costruzione

Prima di procedere con il processo di costruzione del modello, due cose essenziali devono essere fatte:

  • Imputare i dati mancanti

Fare clic sull’opzione Imputa nella scheda Data e scegliere un criterio per l’imputazione sulle colonne selezionate del set di dati.

  • Dividere i dati in set di allenamento e test.

I dati di divisione vengono ottenuti specificando il rapporto di divisione e, di conseguenza, viene creato un frame di allenamento e test. Fare clic sul menu a discesa Dati e selezionare Dividi cornice.

  • Creazione di un modello GBM

Una volta terminata l’esplorazione dei dati, è possibile iniziare a creare un modello predittivo che verrà messo in produzione. Fare clic sulla scheda Model e Flow visualizza un elenco di tutti gli algoritmi disponibili.H2O supporta un’ampia varietà di algoritmi da GLM a GBM a AutoML a DeepLearning. Ecco la lista completa:

Per il bene di questo articolo, costruiremo un generale Boosting machine(GBM), che è un metodo ensemble forward learning. Scegliere i set di dati e la colonna di risposta e lasciare tutte le altre opzioni come predefinite e quindi creare il modello.

Visualizzazione dei modelli

Possiamo anche visualizzare i risultati del modello, che ci aiutano a giudicare rapidamente come il nostro modello ha fatto. Otteniamo la cronologia dei punteggi, le curve ROC, l’importanza variabile e molte altre informazioni rilevanti che possono essere molto utili per regolare le prestazioni del nostro modello.

Categorie: Articles

0 commenti

Lascia un commento

Segnaposto per l'avatar

Il tuo indirizzo email non sarà pubblicato.