Przewidywanie utraty klientów za pomocą H2O

Przewidywanie utraty klientów jest rozsądnie znanym problemem w obszarze zarządzania relacjami z Klientami (CRM) i jest kluczowym elementem nowoczesnych strategii marketingowych. Zatrzymywanie klienta jest bardzo ważne dla organizacji i zobaczymy, w jaki sposób H2O może odegrać istotną rolę w procesie analityki danych, szybko tworząc modele predykcyjne, a następnie wykorzystując dane insights, aby zwiększyć retencję klientów.

użyty zbiór danych należy do KDD Cup Challenge 2009. Można to również uzyskać pod Examples > Browse installed packs > examples > KDDCup 2009_Churn.floww interfejsie przepływu. Możesz również skorzystać z poniższych linków, aby uzyskać dostęp do danych dotyczących szkolenia i walidacji :

  • dane treningowe
  • dane walidacyjne

oto rurociąg przepływu, którego będziemy używać do przeprowadzania treningu i przewidywania.

rurociąg uczenia maszynowego

Importowanie /przesyłanie danych

wprowadź ścieżkę pliku w polu automatycznego uzupełniania wyszukiwania i naciśnij klawisz Enter. Wybierz Plik z wyników wyszukiwania i potwierdź go klikając link Add All . Możemy również przesłać plik lokalny lub bezpośrednio podać adres url zbioru danych.

zobaczmy, jak możemy zaimportować dane treningowe do interfejsu flow.

parsowanie danych

następnym krokiem jest parsowanie importowanych danych. Możemy wybrać rodzaj parserów, ale w większości przypadków H2O wylicza to za nas automatycznie. Podczas Parse Setup page, mamy do wyboru nazwy kolumn, jak również typy kolumn. Dla kolumny churn, zmieńmy typ danych z numeric na enum, co oznacza zmienną kategoryczną. Kolumna Churn jest kolumną odpowiedzi, więc podczas procesu budowania modelu kolumna ta zostanie automatycznie rozwinięta do zmiennych obojętnych.

następnie po naciśnięciu przycisku parse dane są analizowane i konwertowane do formatu .hex.

można również wizualizować dane każdej etykiety, klikając odpowiednią kolumnę. Wyobraźmy sobie kolumnę churn i jej różne rozkłady.

modele budowlane

zanim przystąpimy do procesu budowania modelu, należy wykonać dwie zasadnicze rzeczy:

  • Przypisywanie brakujących danych

kliknij opcję Impute w zakładce Data i wybierz kryterium imputacji na wybranych kolumnach zbioru danych.

  • podział danych na zestaw treningowy i testowy.

dzielenie danych jest osiągane przez określenie współczynnika podziału, a zatem tworzy się ramka treningowa i testowa. Kliknij listę rozwijaną Dane i wybierz opcję podziel ramkę.

  • budowanie modelu GBM

po zakończeniu eksploracji danych można rozpocząć budowanie modelu predykcyjnego, który zostanie wprowadzony do produkcji. Kliknij kartę Model, a Flow wyświetli listę wszystkich dostępnych algorytmów.H2O obsługuje szeroką gamę algorytmów od GLM do GBM, AutoML do DeepLearning. Oto pełna lista:

na potrzeby tego artykułu zbudujemy General Boosting machine (GBM), która jest metodą forward learning ensemble. Wybierając zestawy danych i kolumnę odpowiedzi i pozostaw wszystkie inne opcje jako domyślne, a następnie zbuduj model.

przeglądanie modeli

możemy również zobaczyć wyniki Modelu, które pomagają nam szybko ocenić, jak nasz model się spisał. Otrzymujemy historię punktacji, krzywe ROC, zmienną wagę i wiele innych istotnych informacji, które mogą być bardzo pomocne w ocenie wydajności naszego modelu.

Kategorie: Articles

0 komentarzy

Dodaj komentarz

Avatar placeholder

Twój adres e-mail nie zostanie opublikowany.