Prédire le taux de désabonnement des clients en utilisant H2O

Prédire le taux de désabonnement des clients est un problème raisonnablement connu dans l’espace de la Gestion de la relation client (CRM) et est un élément crucial des stratégies marketing modernes. La fidélisation d’un client est très importante pour les organisations, et nous verrons comment H2O peut jouer un rôle essentiel dans le pipeline de la science des données en créant rapidement des modèles prédictifs, puis en utilisant les informations pour augmenter la rétention des clients.

L’ensemble de données utilisé appartient au Défi de la Coupe KDD 2009. Ceci est également accessible sous le Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow dans l’interface de flux. Vous pouvez également utiliser les liens suivants pour accéder aux données de formation et de validation, respectivement :

  • Données d’entraînement
  • Données de validation

Voici le pipeline de flux que nous utiliserons pour effectuer l’entraînement et les prédictions.

Pipeline d’apprentissage automatique

Importation/téléchargement de données

Entrez le chemin du fichier dans le champ de saisie de recherche à remplissage automatique et appuyez sur Entrée. Sélectionnez le fichier dans les résultats de la recherche et confirmez-le en cliquant sur le lien Add All . Nous pouvons également télécharger un fichier local ou mentionner directement l’URL du jeu de données.

Voyons comment nous pouvons importer les données d’entraînement dans l’interface de flux.

Analyse des données

L’étape suivante consiste à analyser les données importées. Nous pouvons sélectionner le type d’analyseurs, mais la plupart du temps, H2O le calcule automatiquement pour nous. Lors de la page de configuration de l’analyse, nous pouvons choisir les noms de colonnes ainsi que les types de colonnes. Pour la colonne churn, changeons le type de données de numeric en enum, qui représente une variable catégorielle. La colonne de désabonnement est la colonne de réponse, de sorte que, pendant le processus de construction du modèle, cette colonne sera automatiquement étendue aux variables fictives.

Ensuite, lorsque vous appuyez sur le bouton parse, les données sont analysées et converties au format .hex.

Il est également possible de visualiser les données de chaque étiquette en cliquant sur la colonne correspondante. Visualisons la colonne de désabonnement et ses différentes distributions.

Construire des modèles

Avant de procéder au processus de construction de modèles, deux choses essentielles doivent être faites:

  • Imputer les données manquantes

Cliquez sur l’option Imputer sous l’onglet Data et choisissez un critère d’imputation sur les colonnes sélectionnées du jeu de données.

  • Diviser les données en ensembles de formation et de test.

Le fractionnement des données est obtenu en spécifiant le rapport de fractionnement et, en conséquence, une trame d’entraînement et de test est créée. Cliquez sur le menu déroulant Données et sélectionnez Diviser le cadre.

  • Construire un modèle GBM

Une fois que vous avez terminé d’explorer les données, vous pouvez commencer à construire un modèle prédictif qui sera mis en production. Cliquez sur l’onglet Model et Flow affiche une liste de tous les algorithmes disponibles.H2O prend en charge une grande variété d’algorithmes, du GLM au GBM, en passant par AutoML et DeepLearning. Voici la liste complète:

Pour les besoins de cet article, nous allons construire une machine d’amplification générale (GBM), qui est une méthode d’ensemble d’apprentissage avancé. Choisissez les ensembles de données et la colonne de réponse et laissez toutes les autres options par défaut, puis créez le modèle.

Affichage des modèles

Nous pouvons également afficher les résultats du modèle, ce qui nous aide à juger rapidement de l’évolution de notre modèle. Nous obtenons l’historique des scores, les courbes ROC, l’importance variable et beaucoup d’autres informations pertinentes qui peuvent être très utiles pour ajuster les performances de notre modèle.

Catégories : Articles

0 commentaire

Laisser un commentaire

Avatar placeholder

Votre adresse e-mail ne sera pas publiée.