voorspellen van klantverloop met behulp van H2O

voorspellen van klantverloop is een redelijk bekend probleem op het gebied van Customer Relationship Management (CRM) en is een cruciaal element van moderne marketingstrategieën. Het behouden van een klant is erg belangrijk voor organisaties, en we zullen zien hoe H2O een vitale rol kan spelen in de data science pijplijn door snel voorspellende modellen te creëren en vervolgens de inzichten te gebruiken om klantenbinding te verhogen.

de gebruikte dataset behoort tot de KDD Cup Challenge 2009. Dit is ook toegankelijk onder de Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow in de Flow interface. U kunt ook de volgende links gebruiken om toegang te krijgen tot de opleidings-en validatiegegevens, respectievelijk :

  • trainingsgegevens
  • Validatiegegevens

hier is de Stroompijplijn die we zullen gebruiken om de training en de voorspellingen uit te voeren.

Machine Learning Pipeline

Gegevens importeren /uploaden

voer het bestandspad in het veld Zoekinvoer automatisch in en druk op Enter. Bestand uit de zoekresultaten kiezen en bevestigen door op de link Add All te klikken. We kunnen ook een lokaal bestand uploaden of direct de url van de dataset vermelden.

laten we eens kijken hoe we de trainingsgegevens kunnen importeren in de flow interface.

ontleden van gegevens

de volgende stap is het ontleden van de geïmporteerde gegevens. We kunnen het type parsers selecteren, maar de meeste van de tijd, H2o berekent het automatisch voor ons. Tijdens de parse Setup pagina, we krijgen om de kolomnamen en de kolomtypen te kiezen. Voor de kolom churn, laten we het datatype veranderen van numeriek naar enum, wat staat voor een categorische variabele. Churn kolom is de respons kolom dus tijdens het modelbouwproces wordt deze kolom automatisch uitgebreid naar de dummy variabelen.

vervolgens, wanneer u op de parse knop drukt, worden de gegevens ontleed en geconverteerd naar een .hex formaat.

het is ook mogelijk om elk label gegevens te visualiseren door te klikken op de bijbehorende kolom. Laten we de churn kolom en de verschillende distributies visualiseren.

modellen bouwen

voordat we verder gaan met het modelbouwproces, moeten twee essentiële dingen worden gedaan:

  • toerekening van de ontbrekende gegevens

klik op de optie toerekening Onder het tabblad Data en kies een criterium voor toerekening op de geselecteerde kolommen van de dataset.

  • gegevens splitsen in trainings – en testset.

gegevens splitsen wordt bereikt door de splitsingsverhouding te specificeren en dienovereenkomstig wordt een training-en een testkader gecreëerd. Klik op de data vervolgkeuzelijst en selecteer frame splitsen.

  • het bouwen van een GBM-model

zodra u klaar bent met het verkennen van de gegevens, kunt u beginnen met het bouwen van een voorspellend model dat in productie zal worden genomen. Klik op het Model tabblad en Flow toont een lijst met alle beschikbare algoritmen.H2O ondersteunt een breed scala aan algoritmen, van GLM tot GBM tot AutoML tot DeepLearning. Hier is de volledige lijst:

in het belang van dit artikel, zullen we een algemene Boosting machine(GBM), dat is een forward learning ensemble methode te bouwen. Kies de datasets en de kolom antwoord en laat alle andere opties als standaard staan en bouw het model.

modellen

we kunnen ook de modelresultaten bekijken, die ons helpen om snel te beoordelen hoe ons model het heeft gedaan. We krijgen de scoringsgeschiedenis, de ROC-curven, variabel belang en veel andere relevante informatie die zeer nuttig kan zijn om de prestaties van ons model te beoordelen.

Categorieën: Articles

0 reacties

Geef een antwoord

Avatar plaatshouder

Het e-mailadres wordt niet gepubliceerd.