Editar

Determine o tempo de vida do cliente e a rotatividade com os serviços de IA do Azure

Azure Data Lake Storage
Azure Databricks
Azure Machine Learning
Azure Analysis Services

Este cenário mostra uma solução para criar modelos preditivos do valor do tempo de vida do cliente e da taxa de rotatividade usando as tecnologias de IA do Azure.

Arquitetura

Architecture diagram for scenario to determine customer lifetime and churn by using Azure AI services.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. Ingestão e orquestração: ingerir dados históricos, transacionais e de terceiros para o cliente a partir de fontes de dados locais. Use o Azure Data Factory e armazene os resultados no Armazenamento do Azure Data Lake.

  2. Processamento de dados: use o Azure Databricks para coletar e limpar os dados brutos do Armazenamento Data Lake. Armazene os dados na camada prateada no Armazenamento do Azure Data Lake.

  3. Engenharia de recursos: com o Azure Databricks, carregue dados da camada prata do Armazenamento Data Lake. Use o PySpark para enriquecer os dados. Após a preparação, use a engenharia de recursos para fornecer uma melhor representação dos dados. A engenharia de recursos também pode melhorar o desempenho do algoritmo de aprendizado de máquina.

  4. Treinamento de modelo: no treinamento de modelo, os dados da camada prata são o conjunto de dados de treinamento do modelo. Você pode usar o MLflow para gerenciar experimentos de aprendizado de máquina. O MLflow controla todas as métricas necessárias para avaliar seu experimento de aprendizado de máquina.

    Os parâmetros MLflow armazenam parâmetros relacionados ao modelo, como hiperparâmetros de treinamento. As métricas MLflow armazenam métricas de desempenho do modelo. O modelo de aprendizado de máquina treina iterativamente usando pipelines do Azure Data Factory. O pipeline de retreinamento do modelo obtém dados de treinamento atualizados do Armazenamento do Azure Data Lake e treina novamente o modelo. O pipeline de reciclagem do modelo começa nas seguintes condições:

    • Quando a precisão do modelo atual em produção cai abaixo de um limite rastreado pelo MLflow.
    • Quando os gatilhos de calendário, com base nas regras definidas pelo cliente, são atingidos.
    • Quando o desvio de dados é detetado.
  5. Registro de aprendizado de máquina: um pipeline do Azure Data Factory registra o melhor modelo de aprendizado de máquina no Serviço de Aprendizado de Máquina do Azure de acordo com as métricas escolhidas. O modelo de aprendizado de máquina é implantado usando o Serviço Kubernetes do Azure.

  6. Fase de serviço: na fase de serviço, você pode usar ferramentas de relatório para trabalhar com suas previsões de modelo. Essas ferramentas incluem o Power BI e os Serviços de Análise do Azure.

Componentes

Alternativas

  • O Data Factory orquestra os fluxos de trabalho para seu pipeline de dados. Se você quiser carregar dados apenas uma vez ou sob demanda, use ferramentas como cópia em massa do SQL Server e AzCopy para copiar dados para o Armazenamento de Blobs do Azure. Em seguida, você pode carregar os dados diretamente no Azure Synapse Analytics usando o PolyBase.

  • Algumas ferramentas de business intelligence podem não suportar o Azure Analysis Services. Em vez disso, os dados selecionados podem ser acessados diretamente do Banco de Dados SQL do Azure. Os dados são armazenados usando o Armazenamento do Azure Data Lake e acessados usando o armazenamento do Azure Databricks para processamento de dados.

Detalhes do cenário

O valor do tempo de vida do cliente mede o lucro líquido de um cliente. Essa métrica inclui o lucro de todo o relacionamento do cliente com a sua empresa. A taxa de churn ou churn mede o número de indivíduos ou itens que saem de um grupo durante um período.

Este cenário de cliente de retalho classifica os seus clientes com base em medidas de marketing e económicas. Este cenário também cria uma segmentação de clientes com base em várias métricas. Ele treina um classificador multiclasse em novos dados. O modelo resultante pontua lotes de novos pedidos de clientes por meio de um trabalho de bloco de anotações do Azure Databricks agendado regularmente.

Esta solução demonstra como interconectar as seguintes tecnologias de IA do Azure:

  • Use o Azure Data Lake e o Azure Databricks para implementar práticas recomendadas para operações de dados.
  • Use o Azure Databricks para fazer análise de dados exploratória.
  • Use o MLflow para rastrear experimentos de aprendizado de máquina.
  • Modelos de aprendizado de máquina de pontuação em lote no Azure Databricks.
  • Use o Aprendizado de Máquina do Azure para modelar o registro e a implantação.
  • Use os blocos de anotações do Azure Data Factory e do Azure Databricks para orquestrar o pipeline de MLOps.

Potenciais casos de utilização

Esta solução é ideal para a indústria de retalho. É útil nos seguintes casos de uso:

  • No marketing, para determinar quanto gastar para adquirir um cliente.
  • Para equipas de produto, para personalizar produtos e serviços para os seus melhores clientes.
  • Para suporte ao cliente, para decidir quanto gastar para atender e manter um cliente.
  • Para representantes de vendas, para decidir quais tipos de clientes gastar mais tempo tentando adquirir.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Disponibilidade

Os componentes do Azure oferecem disponibilidade por meio de redundância e conforme especificado em SLAs (contratos de nível de serviço):

  • Para obter informações sobre pipelines do Data Factory, consulte SLA para Data Factory.
  • Para obter informações sobre o Azure Databricks, consulte Azure Databricks.
  • O armazenamento Data Lake oferece disponibilidade por meio de redundância. Consulte Redundância do Armazenamento do Azure.

Escalabilidade

Este cenário usa o Armazenamento do Azure Data Lake para armazenar dados para modelos e previsões de aprendizado de máquina. O Armazenamento do Azure é escalável. Ele pode armazenar e servir muitos exabytes de dados. Essa quantidade de armazenamento está disponível com taxa de transferência medida em gigabits por segundo (Gbps). O processamento é executado em latências quase constantes por solicitação. As latências são medidas nos níveis de serviço, conta e arquivo.

Este cenário usa clusters do Azure Databricks, que habilitam o dimensionamento automático por padrão. O dimensionamento automático permite que o Databricks durante o tempo de execução realoque recursos dinamicamente. Com o dimensionamento automático, você não precisa iniciar um cluster para corresponder a uma carga de trabalho, o que facilita o alto uso do cluster.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

Proteja ativos usando controles no tráfego de rede originado no Azure, entre recursos locais e hospedados no Azure e tráfego de e para o Azure. Por exemplo, o tempo de execução de integração auto-hospedado do Azure move dados com segurança do armazenamento de dados local para o Azure.

Use o Azure Key Vault e o segredo de escopo do Databricks para acessar dados no Armazenamento do Azure Data Lake.

Os serviços do Azure são implantados em uma rede virtual segura ou acessados usando o recurso Link Privado do Azure. Se necessário, a segurança em nível de linha fornece acesso granular a usuários individuais no Azure Analysis Services ou no Banco de Dados SQL.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

O Azure Databricks é uma oferta premium do Apache Spark com um custo associado.

Existem níveis de preços padrão e premium do Databricks. Para este cenário, o nível de preço padrão é suficiente. Se seu aplicativo exigir o dimensionamento automático de clusters para lidar com cargas de trabalho maiores ou painéis interativos do Databricks, talvez você precise da camada premium.

Os custos relacionados a este caso de uso dependem do preço padrão para os seguintes serviços para seu uso:

Para estimar o custo dos produtos e configurações do Azure, visite a calculadora de preços do Azure.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos