Forutsi Kundefrafall ved HJELP AV H2O

Forutsi kundefrafall er et rimelig kjent problem innen Customer Relationship Management (CRM) og er et avgjørende element i moderne markedsføringsstrategier. Beholde en kunde er svært viktig for organisasjoner, og vi skal se hvordan H2O kan spille en viktig rolle i data science pipeline ved raskt å lage prediktive modeller og deretter bruke innsikt for å øke kundelojalitet.

datasettet som brukes tilhører 2009 Kdd Cup Challenge. Dette kan også nås under Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow I Flytgrensesnittet. Alternativt kan du bruke følgende koblinger for å få tilgang til henholdsvis opplærings-og valideringsdata :

  • Treningsdata
  • Valideringsdata

Her er Flytrørledningen som vi skal bruke til å utføre treningen og spådommene.

Machine Learning Pipeline

Importere /Laste Opp Data

Skriv inn filbanen i feltet automatisk utfylling Av søkeoppføring og trykk Enter. Velg filen fra søkeresultatene og bekreft den ved å klikke på koblingen Add All . Vi kan også laste opp en lokal fil eller kan direkte nevne nettadressen til datasettet.

La oss se hvordan vi kan importere treningsdataene til flow-grensesnittet.

Analyse Av Data

det neste trinnet er å analysere de importerte dataene. Vi kan velge typen parsere, men mesteparten av TIDEN, h2o tall det ut automatisk for oss. Under parse Setup-siden får vi velge kolonnenavn samt kolonnetyper. For churn-kolonnen, la oss endre datatypen fra numerisk til enum, som står for en kategorisk variabel. Churn kolonnen er responsen kolonnen så, under modellbyggeprosessen, denne kolonnen vil bli automatisk utvidet til dummy variabler.

Neste, når du trykker på knappen parse, analyseres dataene og konverteres til et format .hex.

det er også mulig å visualisere hver etikettdata ved å klikke på den tilsvarende kolonnen. La oss visualisere churn-kolonnen og dens forskjellige distribusjoner.

Byggemodeller

før vi går videre med modellbyggingsprosessen, må to viktige ting gjøres:

  • Imputing av manglende data

Klikk På Impute-alternativet under fanen Data og velg et kriterium for imputation på de valgte kolonnene i datasettet.

  • Dele data i trening og testing sett.

Splitting data oppnås ved å spesifisere split-forholdet og følgelig opprettes en trening og en testramme. Klikk På Data-rullegardinmenyen, og velg Del Ramme.

  • Bygg EN GBM-modell

når du er ferdig med å utforske dataene, kan du begynne å bygge en prediktiv modell som vil bli satt i produksjon. Klikk på fanen Model Og Flow trekker opp en liste over alle tilgjengelige algoritmer.H2O støtter et bredt utvalg av algoritmer rett FRA GLM TIL GBM Til AutoML Til DeepLearning. Her er den komplette listen:

for å få til denne artikkelen, vil vi bygge En General Boosting machine (GBM), som er en forward learning ensemble metode. Velge datasett og svar-kolonnen og la alle de andre alternativene som standard og deretter bygge modellen.

Vise Modeller

Vi kan også se modellresultatene, noe som hjelper oss med å raskt bedømme hvordan modellen vår har gjort det. Vi får scoring historie, ROC kurver, variabel betydning, og mye annen relevant informasjon som kan være svært nyttig å adjudge ytelsen til vår modell.

Kategorier: Articles

0 kommentarer

Legg igjen en kommentar

Avatar placeholder

Din e-postadresse vil ikke bli publisert.