prever o churn do cliente usando H2O

prever o churn do cliente é um problema razoavelmente conhecido no espaço da Gestão de Relacionamento com o cliente (CRM) e é um elemento crucial das estratégias de marketing modernas. Manter um cliente é muito importante para as organizações, e veremos como a H2O pode desempenhar um papel vital no pipeline de dados científicos, criando rapidamente modelos preditivos e, em seguida, usando os insights para aumentar a retenção do cliente.

o conjunto de dados utilizado pertence ao desafio de 2009 da Copa KDD. Isto também pode ser acessado sob o Examples > Browse installed packs > examples > KDDCup 2009_Churn.flow na interface de fluxo. Em alternativa, utilize os seguintes links para aceder aos dados de formação e validação, respectivamente :

  • dados de treinamento
  • dados de validação

aqui está o fluxo de fluxo que vamos usar para realizar o treinamento e as previsões.

Aprendizado de Máquina Pipeline

Importação /exportação de Dados

Digite o caminho do arquivo no auto-completar de entrada de Pesquisa de campo e pressione Enter. Selecione o arquivo a partir dos resultados da pesquisa e confirme-o clicando no link Add All . Podemos também enviar um ficheiro local ou mencionar directamente o url do conjunto de dados.

Vamos ver como nós podemos importar os dados de treinamento para o fluxo de interface.

Análise de Dados

O próximo passo é analisar os dados importados. Nós podemos selecionar o tipo de parsers, mas na maioria das vezes, H2O faz a figura automaticamente para nós. Durante a página de configuração da análise, podemos escolher os nomes das colunas, bem como os tipos de coluna. Para a coluna churn, vamos alterar o tipo de dados de numérico para enum, que significa uma variável categórica. A coluna Churn é a coluna de resposta, portanto, durante o processo de construção do Modelo, essa coluna será expandida automaticamente para as variáveis fictícias.

em seguida, quando você bater o parse botão, os dados são analisados e convertidos para um .hex formato.

também é possível visualizar cada rótulo de dados clicando na coluna correspondente. Vamos visualizar a coluna de churn e suas várias distribuições.

a Construção de Modelos

Antes de prosseguir com a construção do modelo de processo, duas coisas essenciais precisam ser feitas:

  • imputar os dados em falta

carregue na opção imputar na página Data e escolha um critério de imputação nas colunas seleccionadas do conjunto de dados.

  • Divisão de dados de treinamento e conjunto de teste.

dados de repartição são obtidos especificando a razão de separação e, consequentemente, é criado um quadro de formação e de ensaio. Carregue na lista de dados e seleccione a moldura dividida.

  • a Construção de um modelo GBM

uma Vez que você é feito com a explorar os dados, você pode começar a construir um modelo de previsão que vai ser colocado em produção. Clique na página Model e o fluxo puxa uma lista de todos os algoritmos disponíveis.H2O suporta uma grande variedade de algoritmos desde GLM até GBM até AutoML até DeepLearning. Aqui está a lista completa:

Para fins deste artigo, vamos construir uma Geral Impulsionar a máquina(GBM), que é uma frente de aprendizagem ensemble método. Escolher os conjuntos de dados e a coluna de resposta e deixar todas as outras opções como padrão e, em seguida, construir o modelo.

a Visualização de Modelos

podemos também ver os resultados do modelo, o que nos ajuda a rapidamente juiz como o nosso modelo tem feito. Nós temos o histórico de pontuação, as curvas ROC, importância variável, e um monte de outras informações relevantes que podem ser muito úteis para ajuizar o desempenho do nosso modelo.

Categorias: Articles

0 comentários

Deixe uma resposta

Avatar placeholder

O seu endereço de email não será publicado.