forudsigelse af Kundekurn brug af H2O

forudsigelse af kundekurn er et rimeligt kendt problem inden for Customer Relationship Management (CRM) og er et afgørende element i moderne marketingstrategier. Fastholdelse af en kunde er meget vigtigt for organisationer, og vi skal se, hvordan H2O kan spille en afgørende rolle i data science pipeline ved hurtigt at skabe forudsigelige modeller og derefter bruge indsigten til at øge kundefastholdelsen.

det anvendte datasæt tilhører 2009 KDD Cup Challenge. Dette kan også tilgås under Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow i Strømningsgrænsefladen. Alternativt kan du bruge følgende links til at få adgang til henholdsvis Trænings-og valideringsdata :

  • træningsdata
  • Valideringsdata

her er Strømningsrørledningen, som vi vil bruge til at udføre træningen og forudsigelserne.

Machine Learning Pipeline

import /upload af Data

indtast filstien i feltet automatisk udfyldelse af søgning, og tryk på Enter. Vælg filen fra søgeresultaterne, og bekræft den ved at klikke på linket Add All . Vi kan også uploade en lokal fil eller direkte nævne datasætets url.

lad os se, hvordan vi kan importere træningsdataene til strømningsgrænsefladen.

Parsing Data

det næste trin er at analysere de importerede data. Vi kan vælge den type parsere, men de fleste af de gange, H2O tal det ud automatisk for os. Under parse Setup-siden får vi vælge kolonnenavne såvel som kolonnetyperne. For churn-kolonnen, lad os ændre datatypen fra numerisk til enum, som står for en kategorisk variabel. Churn-kolonnen er svarkolonnen, så under modelbygningsprocessen udvides denne kolonne automatisk til dummy-variablerne.

Næste, når du trykker på parse knappen, analyseres dataene og konverteres til et .hex format.

det er også muligt at visualisere hver etiketdata ved at klikke på den tilsvarende kolonne. Lad os visualisere churn-kolonnen og dens forskellige distributioner.

bygningsmodeller

før vi fortsætter med modelbygningsprocessen, skal der gøres to vigtige ting:

  • beregning af de manglende data

Klik på indstillingen Impute under fanen Data og vælg et kriterium for imputation på de valgte kolonner i datasættet.

  • opdeling af data i Trænings-og testsæt.

opdeling af data opnås ved at specificere splitforholdet, og der oprettes derfor en træning og en testramme. Klik på rullemenuen Data, og vælg Opdel ramme.

  • opbygning af en GBM-model

når du er færdig med at udforske dataene, kan du begynde at opbygge en forudsigelig model, der vil blive sat i produktion. Klik på fanen Model, og strømmen trækker en liste over alle tilgængelige algoritmer op.H2O understøtter en bred vifte af algoritmer lige fra GLM til GBM til AutoML til DeepLearning. Her er den komplette liste:

af hensyn til denne artikel vil vi bygge en General Boosting machine(GBM), som er en fremadrettet læringsensemble-metode. Valg af datasæt og svarkolonnen, og lad alle de andre indstillinger være som standard, og opbyg derefter modellen.

visning af modeller

vi kan også se modelresultaterne, som hjælper os med hurtigt at bedømme, hvordan vores model har gjort. Vi får scoringshistorikken, ROC-kurverne, variabel betydning, og en masse andre relevante oplysninger, som kan være meget nyttige til at bedømme udførelsen af vores model.

Kategorier: Articles

0 Kommentarer

Skriv et svar

Profilbillede pladsholder

Din e-mailadresse vil ikke blive publiceret.