prezicerea putinei clienților folosind H2O

prezicerea putinei clienților este o problemă destul de cunoscută în spațiul managementului relațiilor cu clienții (CRM) și este un element crucial al strategiilor moderne de marketing. Păstrarea unui client este foarte importantă pentru organizații și vom vedea cum H2O poate juca un rol vital în conducta științei datelor, creând rapid modele predictive și apoi folosind informațiile pentru a crește retenția clienților.

setul de date utilizat aparține provocării Cupei KDD 2009. Acest lucru poate fi accesat și sub Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow în Interfața Flow. Alternativ, utilizați următoarele linkuri pentru accesarea datelor de instruire și, respectiv, de validare :

  • date de instruire
  • date de validare

Iată conducta de flux pe care o vom folosi pentru a efectua instruirea și predicțiile.

Machine Learning Pipeline

importarea /încărcarea datelor

introduceți calea fișierului în câmpul de introducere a căutării de completare automată și apăsați Enter. Selectați fișierul din rezultatele căutării și confirmați-l făcând clic pe linkul Add All . De asemenea, putem încărca un fișier local sau putem menționa Direct adresa url a setului de date.

să vedem cum putem importa datele de antrenament în interfața flow.

analiza datelor

următorul pas este de a analiza datele importate. Putem selecta tipul de analizoare, dar de cele mai multe ori, H2O își dă seama automat pentru noi. În timpul paginii de configurare parse, vom ajunge pentru a alege numele coloanelor, precum și tipurile de coloane. Pentru coloana putinei, să schimbăm tipul de date de la numeric la enum, care înseamnă o variabilă categorică. Coloana putinei este coloana de răspuns, astfel încât, în timpul procesului de construire a modelului, această coloană va fi extinsă automat în variabilele fictive.

apoi, când apăsați butonul parse, datele sunt analizate și convertite într-un format .hex.

de asemenea, este posibil să vizualizați fiecare etichetă făcând clic pe coloana corespunzătoare. Să vizualizăm coloana putinei și diferitele sale distribuții.

modele de construcție

înainte de a continua procesul de construcție a modelului, trebuie făcute două lucruri esențiale:

  • imputarea datelor lipsă

Faceți clic pe opțiunea Impute sub fila Data și alegeți un criteriu de imputare pe coloanele selectate ale setului de date.

  • împărțirea datelor în setul de instruire și testare.

datele de divizare se realizează prin specificarea raportului de divizare și, în consecință, se creează un cadru de instruire și un cadru de testare. Faceți clic pe meniul derulant date și selectați cadru divizat.

  • construirea unui model GBM

odată ce ați terminat cu explorarea datelor, puteți începe construirea unui model predictiv care va fi pus în producție. Faceți clic pe fila Model și Flow afișează o listă cu toți algoritmii disponibili.H2O suportă o mare varietate de algoritmi chiar de la GLM la GBM la AutoML la DeepLearning. Iată lista completă:

de dragul acestui articol, vom construi o mașină generală de stimulare (GBM), care este o metodă de ansamblu de învățare înainte. Alegerea seturilor de date și coloana de răspuns și lăsați toate celelalte opțiuni ca implicite și apoi construiți modelul.

vizualizarea modelelor

de asemenea, putem vizualiza rezultatele modelului, care ne ajută să judecăm rapid modul în care a făcut modelul nostru. Obținem Istoricul punctajului, curbele ROC, importanța variabilă și o mulțime de alte informații relevante care pot fi foarte utile pentru a evalua performanța modelului nostru.

Categorii: Articles

0 comentarii

Lasă un răspuns

Avatar placeholder

Adresa ta de email nu va fi publicată.