asiakkaan H2O: n ennustaminen

asiakkaan H2O: n ennustaminen on kohtuullisen tunnettu ongelma asiakkuudenhallinnan (CRM) alalla ja se on keskeinen osa nykyaikaisia markkinointistrategioita. Asiakkaan säilyttäminen on organisaatioille erittäin tärkeää, ja tulemme näkemään, miten H2O voi olla keskeisessä roolissa datatiedeputkessa luomalla nopeasti ennakoivia malleja ja hyödyntämällä sitten oivalluksia asiakkaan säilyttämisen lisäämiseksi.

käytetty aineisto kuuluu vuoden 2009 KDD Cup Challengeen. Tätä voi käyttää myös Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow Flow-rajapinnassa. Vaihtoehtoisesti voit käyttää seuraavia linkkejä koulutus-ja validointitietojen hakemiseen :

  • koulutustiedot
  • Validointitiedot

tässä on Virtausputki, jota käytämme koulutuksen ja ennusteiden suorittamiseen.

Machine Learning Pipeline

tuo / lataa tietoja

Anna tiedostopolku automaattiseen hakusyöttökenttään ja paina Enter. Valitse tiedosto hakutuloksista ja vahvista se klikkaamalla Add All – linkkiä. Voimme myös ladata paikallisen tiedoston tai mainita suoraan datajoukon url-osoitteen.

katsotaan, miten voimme tuoda harjoitustietoja flow-rajapintaan.

jäsennetään tietoja

seuraava vaihe on jäsentää tuotuja tietoja. Voimme valita tyypin parserit, mutta useimmiten, H2O selvittää sen automaattisesti meille. Aikana jäsennys Setup sivu, saamme valita sarakkeen nimet sekä sarakkeen tyypit. Churn-saraketta varten muutetaan datatyyppi numeerisesta enumiksi, joka tarkoittaa kategorista muuttujaa. Churn-sarake on vastesarake, joten mallin rakennusprosessin aikana tämä sarake laajenee automaattisesti valemuuttujiksi.

seuraavaksi painettaessa parse – painiketta data jäsennetään ja muunnetaan .hex – muotoon.

on myös mahdollista visualisoida kunkin tarran tiedot klikkaamalla vastaavaa saraketta. Kuvitellaan kirnupylväs ja sen erilaiset jakelut.

talomallit

ennen kuin jatkamme mallirakentamista, on tehtävä kaksi olennaista asiaa:

  • puuttuvien tietojen imputointi

Napsauta imputointi-vaihtoehtoa Data – välilehdessä ja valitse imputointikriteeri aineiston valituista sarakkeista.

  • tietojen jakaminen koulutus-ja testaussarjaan.

Jakotieto saavutetaan määrittelemällä jakosuhde ja sen mukaisesti luodaan koulutus-ja testauskehys. Napsauta Data-pudotusvalikkoa ja valitse Split Frame.

  • GBM-mallin rakentaminen

kun aineiston tutkiminen on tehty, voidaan alkaa rakentaa ennakoivaa mallia, joka otetaan tuotantoon. Napsauta Model – välilehteä ja Flow vetää listan kaikista käytettävissä olevista algoritmeista.H2O tukee monenlaisia algoritmeja suoraan GLM: stä GBM: ään AutoML: stä Deeplearningiin. Tässä on täydellinen lista:

tämän artikkelin vuoksi rakennamme yleisen Tehostuskoneen(GBM), joka on eteenpäin oppimisen ensemble-menetelmä. Valitsemalla tietokokonaisuudet ja vastaussarakkeen ja jättää kaikki muut vaihtoehdot oletukseksi ja rakentaa sitten malli.

tarkasteltaessa malleja

voimme tarkastella myös mallin tuloksia, joiden avulla voimme nopeasti arvioida, miten mallimme on pärjännyt. Saamme pisteytyshistorian, ROC-käyrät, muuttuvan merkityksen ja paljon muuta merkityksellistä tietoa, joka voi olla erittäin hyödyllinen mallimme suorituskyvyn arvioimiseksi.

Kategoriat: Articles

0 kommenttia

Vastaa

Avatar placeholder

Sähköpostiosoitettasi ei julkaista.