Predecir la pérdida de clientes usando H2O

Predecir la pérdida de clientes es un problema razonablemente conocido en el ámbito de la Gestión de Relaciones con los Clientes (CRM) y es un elemento crucial de las estrategias de marketing modernas. Retener a un cliente es muy importante para las organizaciones, y veremos cómo el H2O puede desempeñar un papel vital en la canalización de la ciencia de datos al crear rápidamente modelos predictivos y luego usar los conocimientos para aumentar la retención de clientes.

El conjunto de datos utilizado pertenece al Desafío de la Copa KDD 2009. También se puede acceder a esto en Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow en la interfaz de flujo. Alternativamente, utilice los siguientes enlaces para acceder a los datos de entrenamiento y validación, respectivamente :

  • Datos de entrenamiento
  • Datos de validación

Aquí está la canalización de flujo que usaremos para realizar el entrenamiento y las predicciones.

Canalización de aprendizaje automático

Importación / carga de datos

Introduzca la ruta del archivo en el campo de entrada de búsqueda automática y presione Entrar. Seleccione el archivo de los resultados de búsqueda y confírmelo haciendo clic en el enlace Add All . También podemos cargar un archivo local o mencionar directamente la url del conjunto de datos.

Vamos a ver cómo podemos importar los datos de entrenamiento en el flujo de la interfaz.

Análisis de Datos

El siguiente paso es analizar los datos importados. Podemos seleccionar el tipo de analizadores, pero la mayoría de las veces, H2O figuras automáticamente para nosotros. Durante la página de configuración de análisis, podemos elegir los nombres de las columnas, así como los tipos de columnas. Para la columna churn, cambiemos el tipo de datos de numérico a enumerado, que significa una variable categórica. La columna de rotación es la columna de respuesta, por lo que, durante el proceso de construcción del modelo, esta columna se expandirá automáticamente a las variables ficticias.

A continuación, cuando pulsa el botón parse, los datos se analizan y se convierten a un formato .hex.

también es posible visualizar cada uno de los datos de la etiqueta haciendo clic en la columna correspondiente. Visualicemos la columna de rotación y sus diversas distribuciones.

la Construcción de Modelos

Antes de proceder con el modelo de proceso de construcción, dos cosas esenciales que necesita ser hecho:

  • Imputar los datos faltantes

Haga clic en la opción Imputar en la pestaña Data y elija un criterio de imputación en las columnas seleccionadas del conjunto de datos.

  • la División de los datos en el entrenamiento y conjunto de prueba.

Los datos de división se logran especificando la relación de división y, en consecuencia, se crea un marco de entrenamiento y prueba. Haga clic en el menú desplegable Datos y seleccione Dividir fotograma.

  • Creación de un modelo de GBM

Una vez que haya terminado de explorar los datos, puede comenzar a crear un modelo predictivo que se pondrá en producción. Haga clic en la pestaña Model y Flow mostrará una lista de todos los algoritmos disponibles.H2O admite una amplia variedad de algoritmos, desde GLM hasta GBM, AutoML y aprendizaje profundo. Aquí está la lista completa:

Por el bien de este artículo, construiremos una máquina de impulso General(GBM), que es un método de conjunto de aprendizaje hacia adelante. Elegir los conjuntos de datos y la columna de respuesta y dejar todas las demás opciones como predeterminadas y, a continuación, crear el modelo.

Ver Modelos

también podemos ver los resultados del modelo, que nos ayudan a juzgar rápidamente cómo nuestro modelo ha hecho. Obtenemos el historial de puntuación, las curvas ROC, la importancia de las variables y mucha otra información relevante que puede ser muy útil para adjudicar el rendimiento de nuestro modelo.

Categorías: Articles

0 comentarios

Deja una respuesta

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada.