förutsäga kund churn med H2O

förutsäga kund churn är ett rimligt känt problem inom ramen för Customer Relationship Management (CRM) och är en avgörande del av moderna marknadsföringsstrategier. Att behålla en kund är mycket viktigt för organisationer, och vi ska se hur H2O kan spela en viktig roll i Data science pipeline genom att snabbt skapa prediktiva modeller och sedan använda insikterna för att öka kundretentionen.

den dataset som används tillhör 2009 KDD Cup Challenge. Detta kan också nås under Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow i Flödesgränssnittet. Alternativt kan du använda följande länkar för att komma åt tränings-och valideringsdata :

  • träningsdata
  • valideringsdata

här är Flödesrörledningen som vi kommer att använda för att utföra träningen och förutsägelserna.

Maskininlärningsrörledning

importera / Ladda upp Data

ange sökvägen i fältet för automatisk slutförande av sökning och tryck på Enter. Välj filen från sökresultaten och bekräfta den genom att klicka på länken Add All . Vi kan också ladda upp en lokal fil eller direkt nämna webbadressen till datauppsättningen.

Låt oss se hur vi kan importera träningsdata till flow-gränssnittet.

analysera Data

nästa steg är att analysera importerade data. Vi kan välja typ av parsers, men de flesta gånger, H2o räknar ut det automatiskt för oss. Under parse Setup-sidan får vi välja kolumnnamn såväl som kolumntyper. För churn-kolumnen, låt oss ändra datatypen från numerisk till enum, vilket står för en kategorisk variabel. Churn-kolumnen är svarskolumnen så, under modellbyggnadsprocessen, kommer denna kolumn automatiskt att expanderas till dummyvariablerna.

därefter, när du trycker på parse – knappen, analyseras data och konverteras till ett .hex – format.

det är också möjligt att visualisera varje etikettdata genom att klicka på motsvarande kolumn. Låt oss visualisera churn-kolumnen och dess olika fördelningar.

Byggmodeller

innan vi fortsätter med modellbyggnadsprocessen måste två väsentliga saker göras:

  • imputering av saknade data

klicka på alternativet Impute under fliken Data och välj ett kriterium för imputering på de valda kolumnerna i datauppsättningen.

  • dela data i utbildning och testning set.

Delningsdata uppnås genom att specificera delningsförhållandet och följaktligen skapas en träning och en testram. Klicka på rullgardinsmenyn Data och välj Dela Ram.

  • bygga en GBM-modell

när du är klar med att utforska data kan du börja bygga en prediktiv modell som kommer att sättas i produktion. Klicka på fliken Model och Flow drar upp en lista över alla tillgängliga algoritmer.H2O stöder en mängd olika algoritmer direkt från GLM till GBM till AutoML till DeepLearning. Här är den kompletta listan:

för den här artikelns skull kommer vi att bygga en allmän Förstärkningsmaskin(GBM), som är en framåtlärande ensemblemetod. Välja datauppsättningar och svarskolumnen och lämna alla andra alternativ som standard och bygg sedan modellen.

Visa modeller

vi kan också se modellresultaten, vilket hjälper oss att snabbt bedöma hur vår modell har gjort. Vi får poänghistoriken, ROC-kurvorna, variabel betydelse och mycket annan relevant information som kan vara till stor hjälp för att justera prestandan hos vår modell.

Kategorier: Articles

0 kommentarer

Lämna ett svar

Platshållare för profilbild

Din e-postadress kommer inte publiceras.