předpovídání churn zákazníků pomocí H2O

předpovídání churn zákazníků je rozumně známým problémem v prostoru řízení vztahů se zákazníky (CRM) a je klíčovým prvkem moderních marketingových strategií. Udržení zákazníka je pro organizace velmi důležité a uvidíme, jak H2O může hrát zásadní roli v potrubí pro vědu o datech rychlým vytvářením prediktivních modelů a následným využitím poznatků ke zvýšení retence zákazníků.

použitá datová sada patří do soutěže KDD Cup 2009. To lze také přistupovat pod Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow v rozhraní Flow. Případně použijte následující odkazy pro přístup k údajům o školení a validaci :

  • tréninková Data
  • validační data

zde je tok potrubí, které budeme používat k provádění školení a předpovědí.

Machine Learning Pipeline

Import / nahrávání dat

zadejte cestu k souboru do pole pro automatické dokončení vyhledávání a stiskněte klávesu Enter. Vyberte soubor z výsledků vyhledávání a potvrďte jej kliknutím na odkaz Add All . Můžeme také nahrát místní soubor nebo přímo zmínit adresu url datové sady.

podívejme se, jak můžeme importovat tréninková data do rozhraní flow.

Analýza dat

dalším krokem je analýza importovaných dat. Můžeme vybrat typ analyzátorů, ale většinou, H2O to pro nás automaticky zjistí. Během stránky nastavení analýzy si vybereme názvy sloupců i typy sloupců. Pro sloupec churn změníme datový typ z numerického na enum, což znamená kategorickou proměnnou. Churn sloupec je sloupec odezvy, takže během procesu vytváření modelu se tento sloupec automaticky rozšíří do fiktivních proměnných.

poté, když stisknete tlačítko parse, data jsou analyzována a převedena do formátu .hex.

je také možné vizualizovat data jednotlivých štítků kliknutím na odpovídající sloupec. Pojďme si představit sloupec churn a jeho různé distribuce.

Stavební modely

než budeme pokračovat v procesu budování modelu, je třeba udělat dvě základní věci:

  • imputace chybějících dat

klikněte na možnost Imputovat pod záložkou Data a vyberte kritérium pro imputaci ve vybraných sloupcích datové sady.

  • rozdělení dat do Tréninkové a testovací sady.

rozdělení dat je dosaženo zadáním poměru rozdělení a podle toho je vytvořen tréninkový a testovací rámec. Klikněte na rozevírací nabídku Data a vyberte Rozdělit rámeček.

  • vytvoření modelu GBM

Jakmile dokončíte zkoumání dat, můžete začít vytvářet prediktivní model, který bude uveden do výroby. Klikněte na kartu Model a Flow vytáhne seznam všech dostupných algoritmů.H2O podporuje širokou škálu algoritmů od GLM přes GBM až po AutoML až po DeepLearning. Zde je kompletní seznam:

v zájmu tohoto článku postavíme obecný posilovací stroj (GBM), což je metoda dopředného učení. Vyberte datové sady a sloupec odpovědí a ponechte všechny ostatní možnosti jako výchozí a poté vytvořte model.

prohlížení modelů

můžeme také zobrazit výsledky modelu, které nám pomáhají rychle posoudit, jak si náš model vedl. Získáme historii bodování, křivky ROC, variabilní význam, a mnoho dalších relevantních informací, které mohou být velmi užitečné při posuzování výkonu našeho modelu.

Kategorie: Articles

0 komentářů

Napsat komentář

Avatar placeholder

Vaše e-mailová adresa nebude zveřejněna.