H2Oを使用した顧客解約の予測

顧客解約の予測は、顧客関係管理(CRM)の分野で合理的に知られている問題であり、現代のマー 顧客を維持することは組織にとって非常に重要であり、H2Oが迅速に予測モデルを作成し、その洞察を使用して顧客の維持を高めることにより、データサイエンスパイプラインにおいてどのように重要な役割を果たすことができるかを見ていきます。

使用されたデータセットは、2009KDD Cup Challengeに属します。 これは、フローインターフェイスのExamples > Browse installed packs > examples > KDDCup 2009_Churn.flowの下でもアクセスできます。 または、トレーニングデータと検証データにそれぞれアクセスするには、次のリンクを使用します:

  • トレーニングデータ
  • 検証データ

ここでは、トレーニングと予測を実行するために使用するフローパイプラインです。

Machine Learning Pipeline

データのインポート/アップロード

自動補完検索入力フィールドにファイルパスを入力し、Enterキーを押します。 検索結果からファイルを選択し、Add All リンクをクリックして確認します。 また、ローカルファイルをアップロードしたり、データセットのurlを直接言及したりすることもできます。

学習データをフローインターフェイスにインポートする方法を見てみましょう。

データの解析

次のステップは、インポートされたデータを解析することです。 私たちはパーサーのタイプを選択することができますが、ほとんどの場合、H2Oは自動的にそれを計算します。 Parse Setupページでは、列名と列タイプを選択します。 Churn列の場合は、データ型をnumericからenumに変更しましょう。 Churn列は応答列であるため、モデル構築プロセス中に、この列は自動的にダミー変数に展開されます。

次に、parseボタンを押すと、データが解析され、.hex形式に変換されます。

対応する列をクリックすることで、各ラベルデータを視覚化することもできます。 Churn列とそのさまざまな分布を視覚化してみましょう。

モデルの構築

モデルの構築プロセスを進める前に、2つの重要なことを行う必要があります:

  • 欠損データの代入

Dataタブの下にある代入オプションをクリックし、データセットの選択した列に対する代入の基準を選択します。

  • データをトレーニングセットとテストセットに分割します。

分割データは分割比を指定することによって達成され、それに応じてトレーニングとテストフレームが作成されます。 [データ]ドロップダウンをクリックし、[フレームの分割]を選択します。

  • GBMモデルの構築

データの探索が完了したら、本番環境に投入される予測モデルの構築を開始できます。 Modelタブをクリックすると、Flowは利用可能なすべてのアルゴリズムのリストをプルアップします。H2Oは、GLMからGbm、AutoML、DeepLearningまで、さまざまなアルゴリズムをサポートしています。 ここに完全なリストがあります:

この記事のために、前方学習アンサンブル法であるGeneral Boosting machine(GBM)を構築します。 データセットと応答列を選択し、他のすべてのオプションをデフォルトのままにしてから、モデルを構築します。

モデルの表示

モデルの結果を表示することもでき、モデルがどのように行ったかを迅速に判断するのに役立ちます。 スコアリング履歴、ROC曲線、変数の重要性、およびモデルのパフォーマンスを調整するのに非常に役立つ他の多くの関連情報を取得します。

カテゴリー: Articles

0件のコメント

コメントを残す

Avatar placeholder

メールアドレスが公開されることはありません。