Modifier

Déterminer la durée de vie et l’attrition clients avec les services Azure AI

Azure Data Lake Storage
Azure Databricks
Azure Machine Learning
Azure Analysis Services

Ce scénario illustre une solution de création de modèles prédictifs de valeur de durée de vie clients et d’attrition avec les technologies Azure AI.

Architecture

Architecture diagram for scenario to determine customer lifetime and churn by using Azure AI services.

Téléchargez un fichier Visio de cette architecture.

Dataflow

  1. Ingestion et orchestration : ingérer les données historiques, transactionnelles et tierces pour le client à partir de sources de données locales. Utilisez Azure Data Factory et stockez les résultats dans Azure Data Lake Storage.

  2. Traitement des données : utilisez Azure Databricks pour récupérer et nettoyer les données brutes de Data Lake Storage. Stockez les données dans la couche argent d’Azure Data Lake Storage.

  3. Ingénierie des caractéristiques : avec Azure Databricks, chargez des données à partir de la couche argent de Data Lake Storage. Utilisez PySpark pour enrichir les données. Après la préparation, utilisez l’ingénierie des caractéristiques pour fournir une meilleure représentation des données. L’ingénierie des caractéristiques peut également améliorer les performances de l’algorithme Machine Learning.

  4. Entraînement du modèle : dans l’entraînement du modèle, les données du niveau argent sont le jeu de données d’entraînement du modèle. Vous pouvez utiliser MLflow pour gérer les expériences Machine Learning. MLflow effectue le suivi de toutes les métriques dont vous avez besoin pour évaluer votre expérience Machine Learning.

    Les paramètres MLflow stockent les paramètres liés au modèle, tels que les hyperparamètres d’entraînement. Les métriques MLflow stockent les métriques de performance du modèle. Le modèle Machine Learning est réentraîné de manière itérative avec des pipelines Azure Data Factory. Le pipeline de réentraînement du modèle obtient les données d’entraînement mises à jour à partir d’Azure Data Lake Storage et réentraîne le modèle. Le pipeline de réentraînement du modèle démarre dans les conditions suivantes :

    • Quand la justesse du modèle actuel en production chute sous un seuil suivi par MLflow.
    • Quand les déclencheurs de calendrier, basés sur les règles définies par le client, sont atteints.
    • Quand une dérive de données est détectée.
  5. Registre Machine Learning : un pipeline Azure Data Factory inscrit le meilleur modèle Machine Learning dans le service Azure Machine Learning en fonction des mesures choisies. Le modèle Machine Learning est déployé au moyen d’Azure Kubernetes Service.

  6. Phase de service : dans la phase de service, vous pouvez utiliser des outils de création de rapports pour travailler avec vos prédictions de modèle. Ces outils incluent Power BI et Azure Analysis Services.

Composants

  • Azure Analysis Services fournit sur le cloud des modèles de données de qualité professionnelle.

  • Azure Data Factory fournit une couche d’intégration et de transformation des données qui fonctionne dans vos initiatives de transformation numérique.

  • Azure Databricks est une plateforme d’analytique données optimisée pour la plateforme de services cloud Microsoft Azure.

  • Azure Machine Learning comprend un éventail d’expériences pour créer, entraîner et déployer des modèles Machine Learning et favoriser la collaboration d’équipe.

  • Azure SQL Database est un moteur de base de données qui gère la plupart des fonctions de gestion sans nécessiter votre intervention. Azure SQL Database vous permet de vous concentrer sur les activités d’administration et d’optimisation de base de données spécifiques à un domaine pour votre entreprise.

  • MLflow est une plateforme open source qui permet de gérer le cycle de vie du Machine Learning de bout en bout.

Autres solutions

  • Data Factory orchestre les flux de travail pour votre pipeline de données. Si vous souhaitez charger des données une seule fois ou à la demande, utilisez des outils tels que la copie en bloc et AzCopy de SQL Server pour copier des données dans le Stockage Blob Azure. Vous pouvez alors charger les données dans Azure Synapse Analytics en utilisant PolyBase.

  • Certains outils décisionnels peuvent ne pas prendre en charge Azure Analysis Services. Les données organisées sont plutôt accessibles directement à partir d’Azure SQL Database. Les données sont stockées au moyen d’Azure Data Lake Storage et sont accessibles via le stockage Azure Databricks pour le traitement des données.

Détails du scénario

La valeur de durée de vie clients mesure le bénéfice net d’un client. Cette métrique comprend le bénéfice issu de la relation entière du client avec votre entreprise. L’attrition mesure le nombre de personnes ou d’éléments déplacés hors d’un groupe sur une période.

Ce scénario client de vente au détail classifie vos clients en fonction des mesures de marketing et économiques. Ce scénario crée également une segmentation des clients basée sur plusieurs métriques. Il entraîne un classifieur multiclasse sur les nouvelles données. Le modèle obtenu évalue des lots de nouvelles commandes client par le biais d’un travail de notebook Azure Databricks régulièrement planifié.

Cette solution montre comment interconnecter les technologies Azure AI suivantes :

  • Utilisez Azure Data Lake et Azure Databricks pour mettre en œuvre les bonnes pratiques en matière d’opérations de données.
  • Utilisez Azure Databricks pour effectuer une analyse exploratoire des données.
  • Utilisez MLflow pour suivre les expériences d’apprentissage automatique.
  • Effectuez un scoring par lot de modèles Machine Learning sur Azure Databricks.
  • Utilisez Azure Machine Learning pour modéliser l’inscription et le déploiement.
  • Utilisez Azure Data Factory et des notebooks Azure Databricks pour orchestrer le pipeline MLOps.

Cas d’usage potentiels

Cette solution est idéale pour le secteur de la vente au détail. Elle est utile dans les cas d’usage suivants :

  • En marketing, pour déterminer la somme à consacrer à l’acquisition d’un client.
  • Pour les équipes de produits, afin d’adapter les produits et les services à leurs meilleurs clients.
  • Pour le service client, afin de décider de la somme à consacrer à la maintenance et à la fidélisation d’un client.
  • Pour les représentants commerciaux, afin de décider sur quels types de clients passer le plus de temps dans le but de les acquérir.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Disponibilité

Les composants Azure offrent une disponibilité grâce à la redondance et conformément à ce qui est spécifié dans les contrats de niveau de service (SLA) :

Extensibilité

Ce scénario utilise Azure Data Lake Storage afin de stocker des données pour les modèles Machine Learning et les prédictions. Stockage Azure est scalable. Il peut stocker et traiter plusieurs exaoctets de données. Cette quantité de stockage est disponible avec un débit mesuré en gigabits par seconde (Gbits/s). Le traitement s’exécute à des latences quasi constantes par demande. Les latences sont mesurées au niveau du service, du compte et des fichiers.

Ce scénario utilise des clusters Azure Databricks, qui permettent la mise à l’échelle automatique par défaut. La mise à l’échelle automatique permet à Databricks pendant l’exécution de réallouer dynamiquement des ressources. Avec la mise à l’échelle automatique, vous n’avez pas besoin de démarrer un cluster en fonction d’une charge de travail, ce qui facilite l’utilisation intensive du cluster.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Protégez les ressources en utilisant des contrôles sur le trafic réseau provenant d’Azure, entre les ressources hébergées localement et sur Azure ainsi que sur le trafic vers et depuis Azure. Par exemple, le runtime d’intégration auto-hébergé Azure déplace de manière sécurisée des données du stockage de données local vers Azure.

Utilisez un secret de portée Databricks et Azure Key Vault pour accéder aux données dans Azure Data Lake Storage.

Les services Azure sont déployés dans un réseau virtuel sécurisé ou accessibles via la fonctionnalité Azure Private Link. Si nécessaire, la sécurité au niveau des lignes fournit un accès précis aux utilisateurs individuels dans Azure Analysis Services ou SQL Database.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Azure Databricks est une offre Apache Spark premium avec un coût associé.

Il existe des niveaux tarifaires standard et premium pour Databricks. Pour ce scénario, le niveau de tarification standard est suffisant. Si votre application a besoin de mettre automatiquement à l’échelle les clusters pour gérer des charges de travail plus grandes ou de tableaux de bord Databricks interactifs, vous pouvez avoir besoin du niveau premium.

Les coûts liés à ce cas d’usage dépendent des tarifs standard pour les services suivants pour votre utilisation :

Pour estimer le coût des produits et configurations Azure, consultez la calculatrice de prix Azure.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes