Modifier

Partager via


Utilisez HDInsight et Delta Lake pour gérer les données d’événements

Azure HDInsight
Microsoft Entra ID
Azure Load Balancer
Azure ExpressRoute
Réseau virtuel Azure

Idées de solution

Cet article présente une idée de solution. Votre architecte cloud peut s’appuyer sur ces conseils pour visualiser les principaux composants d’une implémentation typique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui répond aux exigences spécifiques de votre charge de travail.

Cet article décrit une solution que vous pouvez utiliser pour ingérer et traiter des millions d’événements de streaming par seconde, puis écrire les événements dans une table Delta Lake. Cette solution utilise Apache Spark et Apache Kafka dans Azure HDInsight.

Apache®, Apache Kafka et Apache Spark sont soit des marques déposées, soit des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays ou régions. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.

Delta Lake Project est la marque déposée de La Fondation Linux aux États-Unis et/ou dans d’autres pays.

Architecture

Diagramme illustrant l’architecture pour l’ingestion et le traitement des données en streaming.

Téléchargez un fichier Visio de cette architecture.

Le logo de Jupyter Notebook est une marque déposée de leur société respective. L’utilisation de cette marque n’implique aucune approbation de sa part.

Dataflow

Le flux de données suivant correspond à l’architecture précédente.

  1. Les données d’événements en temps réel, telles que les données d’événements IoT, sont ingérées dans Apache Kafka via un producteur Apache Kafka.

  2. Apache Spark Structured Streaming traite les données en quasi temps réel.

  3. Apache Spark fournit des récepteurs pour écrire des analyses transformées et calculées. Les données traitées sont stockées dans un compte Azure Data Lake Storage au format de table Delta Lake.

  4. Les données traitées sont continuellement ingérées dans Apache Kafka.

  5. Les données dans le compte Azure Data Lake Storage peuvent fournir des informations pour :

    • Tableaux de bord en quasi temps réel dans Power BI.
    • Azure Machine Learning à utiliser avec des outils de machine learning.
    • Jupyter Notebook en utilisant PySpark ou Scala pour consommer des tables Delta Lake.

Composants

  • HDInsight fournit des composants open-source pour l’analyse d’entreprise. Vous pouvez exécuter ces composants Apache dans un environnement Azure avec sécurité de qualité entreprise. HDInsight offre également d’autres avantages tels que la scalabilité, la sécurité, la surveillance centralisée, la disponibilité mondiale et l’extensibilité.

  • Apache Kafka dans HDInsight est une plateforme distribuée open-source gérée que vous pouvez utiliser pour créer des pipelines de données en streaming et des applications en temps réel. Apache Kafka offre des performances élevées et une durabilité afin que vous puissiez regrouper des enregistrements en sujets, partitions et groupes de consommateurs et multiplexer des flux d’événements des producteurs aux consommateurs.

  • Apache Spark dans HDInsight est une implémentation Microsoft gérée d’Apache Spark dans le cloud et est l’une des plusieurs offres Spark dans Azure.

  • Apache Spark Structured Streaming est un moteur évolutif avec tolérance aux pannes exactement-une-fois pour le traitement de flux. Il est construit sur le moteur Spark SQL. Les requêtes Structured Streaming sont en quasi temps réel et ont une faible latence. Apache Spark Structured Streaming offre plusieurs connecteurs pour les sources de données et les récepteurs de données. Vous pouvez également joindre plusieurs flux de différentes sources.

  • Apache Spark Structured Streaming dans Apache Kafka est utilisé pour les requêtes par lot et en flux et pour les stocker dans une couche de stockage, une base de données ou Apache Kafka.

  • Une couche de stockage Delta Lake fournit une fiabilité pour les lacs de données en ajoutant une couche de stockage transactionnelle au-dessus des données stockées dans le stockage cloud, tel que Azure Storage. Cette couche de stockage étend les fichiers de données Apache Parquet avec des journaux de transactions basés sur des fichiers. Vous pouvez stocker des données au format de table Delta Lake pour profiter des avantages tels que les transactions atomicité, cohérence, isolation et durabilité (ACID), l’évolution du schéma et les versions historiques.

  • Un connecteur de table Delta Lake Power BI est utilisé pour lire les données de table Delta Lake à partir de Power BI.

  • L’apprentissage automatique est un service Azure où vous pouvez envoyer les données que vous collectez pour ensuite les utiliser pour des modèles d’apprentissage automatique.

Détails du scénario

Le streaming d’événements est une séquence continue illimitée d’événements immuables qui circulent de l’éditeur d’événements aux abonnés. Dans certains cas d’utilisation commerciale, vous devez stocker ces événements dans un format brut, puis nettoyer, transformer et agréger les événements pour divers besoins analytiques. Utilisez le streaming d’événements pour effectuer le traitement et l’analyse en quasi temps réel des événements, ce qui génère des insights immédiats.

Cas d’usage potentiels

Cette solution offre une opportunité à votre entreprise de traiter les flux d’événements immuables avec tolérance aux pannes exactement-une-fois en quasi temps réel. Cette approche utilise Apache Kafka comme source d’entrée pour Spark Structured Streaming et utilise Delta Lake comme couche de stockage.

Les scénarios d’affaires incluent :

  • Détection de fraude à l’inscription de compte
  • Analyse des conditions actuelles du marché
  • Analyse des données du marché boursier en temps réel
  • Détection de fraude par carte de crédit
  • Traitement d’image et de vidéo numériques
  • Recherche et découverte de médicaments
  • Middleware pour les solutions d’entreprise de Big Data
  • Calcul du risque de vente à découvert
  • Fabrication intelligente et IoT industriel (IIoT)

Cette solution s’applique aux industries suivantes :

  • Agriculture
  • Biens de consommation emballés (CPG)
  • Cybersécurité
  • Finances
  • Santé
  • Assurance
  • Logistics
  • Fabrication
  • Vente au détail

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Principaux auteurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes