forudsigelse af Kundekurn brug af H2O
forudsigelse af kundekurn er et rimeligt kendt problem inden for Customer Relationship Management (CRM) og er et afgørende element i moderne marketingstrategier. Fastholdelse af en kunde er meget vigtigt for organisationer, og vi skal se, hvordan H2O kan spille en afgørende rolle i data science pipeline ved hurtigt at skabe forudsigelige modeller og derefter bruge indsigten til at øge kundefastholdelsen.
det anvendte datasæt tilhører 2009 KDD Cup Challenge. Dette kan også tilgås under Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow
i Strømningsgrænsefladen. Alternativt kan du bruge følgende links til at få adgang til henholdsvis Trænings-og valideringsdata :
- træningsdata
- Valideringsdata
her er Strømningsrørledningen, som vi vil bruge til at udføre træningen og forudsigelserne.

import /upload af Data
indtast filstien i feltet automatisk udfyldelse af søgning, og tryk på Enter. Vælg filen fra søgeresultaterne, og bekræft den ved at klikke på linket Add All
. Vi kan også uploade en lokal fil eller direkte nævne datasætets url.

lad os se, hvordan vi kan importere træningsdataene til strømningsgrænsefladen.

Parsing Data
det næste trin er at analysere de importerede data. Vi kan vælge den type parsere, men de fleste af de gange, H2O tal det ud automatisk for os. Under parse Setup-siden får vi vælge kolonnenavne såvel som kolonnetyperne. For churn-kolonnen, lad os ændre datatypen fra numerisk til enum, som står for en kategorisk variabel. Churn-kolonnen er svarkolonnen, så under modelbygningsprocessen udvides denne kolonne automatisk til dummy-variablerne.

Næste, når du trykker på parse
knappen, analyseres dataene og konverteres til et .hex
format.

det er også muligt at visualisere hver etiketdata ved at klikke på den tilsvarende kolonne. Lad os visualisere churn-kolonnen og dens forskellige distributioner.

bygningsmodeller
før vi fortsætter med modelbygningsprocessen, skal der gøres to vigtige ting:
- beregning af de manglende data
Klik på indstillingen Impute under fanen Data
og vælg et kriterium for imputation på de valgte kolonner i datasættet.

- opdeling af data i Trænings-og testsæt.
opdeling af data opnås ved at specificere splitforholdet, og der oprettes derfor en træning og en testramme. Klik på rullemenuen Data, og vælg Opdel ramme.

- opbygning af en GBM-model
når du er færdig med at udforske dataene, kan du begynde at opbygge en forudsigelig model, der vil blive sat i produktion. Klik på fanen Model
, og strømmen trækker en liste over alle tilgængelige algoritmer op.H2O understøtter en bred vifte af algoritmer lige fra GLM til GBM til AutoML til DeepLearning. Her er den komplette liste:

af hensyn til denne artikel vil vi bygge en General Boosting machine(GBM), som er en fremadrettet læringsensemble-metode. Valg af datasæt og svarkolonnen, og lad alle de andre indstillinger være som standard, og opbyg derefter modellen.

visning af modeller
vi kan også se modelresultaterne, som hjælper os med hurtigt at bedømme, hvordan vores model har gjort. Vi får scoringshistorikken, ROC-kurverne, variabel betydning, og en masse andre relevante oplysninger, som kan være meget nyttige til at bedømme udførelsen af vores model.

0 Kommentarer