Concevoir une solution d’intégration et d’analyse de données avec Azure Databricks

Effectué

Azure Databricks est une plateforme de données volumineuses et de Machine Learning basée sur le cloud complètement managée, qui permet aux développeurs d’accélérer l’intelligence artificielle et l’innovation. Azure Databricks fournit aux équipes de science des données et d’ingénierie des données une seule plateforme pour le traitement du Big Data et le machine learning. La plateforme Apache Spark gérée par Azure Databricks simplifie l’exécution des charges de travail Spark à grande échelle.

Points à connaître sur Azure Databricks

Azure Databricks est entièrement basé sur Apache Spark et constitue un excellent outil pour ceux qui sont déjà familiarisés avec l’infrastructure de calcul de cluster open source. En tant que moteur analytique unifié, il est conçu spécifiquement pour le traitement du Big Data. Les scientifiques des données peuvent tirer parti de l’API de base intégrée pour les langages principaux comme SQL, Java, Python, R et Scala.

Azure Databricks a un plan de contrôle et un plan de données :

  • Plan de contrôle : héberge les travaux Databricks, les notebooks avec les résultats de requête et le gestionnaire de clusters. Le plan de contrôle a également l’application web, le metastore Hive ainsi que des listes de contrôle d’accès (ACL) de sécurité et des sessions utilisateur. Ces composants sont gérés par Microsoft en collaboration avec Azure Databricks, et ne se résident pas dans votre abonnement Azure.
  • Plan de données : contient tous les clusters du runtime Databricks hébergés dans l’espace de travail. L’ensemble du traitement et du stockage des données prend place dans l’abonnement client. Aucun traitement de données n’est effectué dans l’abonnement géré par Microsoft/Databricks.

Azure Databricks offre trois environnements pour le développement d’applications utilisant de nombreuses données.

  • Databricks SQL : Azure Databricks SQL fournit une plateforme facile à utiliser pour les analystes qui veulent exécuter des requêtes SQL sur leur lac de données. Vous pouvez créer plusieurs types de visualisation pour explorer les résultats de requête sous différentes perspectives, et créer et partager des tableaux de bord.
  • Science des données et ingénierie Databricks : Science des données et ingénierie Azure Databricks est un espace de travail interactif qui permet la collaboration entre les ingénieurs Données, les scientifiques des données et les ingénieurs Machine Learning. Pour un pipeline de Big Data, les données (brutes ou structurées) sont ingérées en lots dans Azure avec Azure Data Factory, ou envoyées en streaming en quasi-temps réel avec Apache Kafka, Azure Event Hubs ou Azure IoT Hub. Les données arrivent dans un lac de données pour un stockage persistant à long terme dans le Stockage Blob Azure ou Azure Data Lake Storage. Dans le cadre de votre workflow analytique, utilisez Azure Databricks pour lire les données de plusieurs sources de données et les convertir en insights capitaux avec Spark.
  • Databricks Machine Learning : Azure Databricks Machine Learning est un environnement de machine learning intégré de bout en bout. Il incorpore des services managés pour le suivi des expériences, l’entraînement de modèle, le développement et la gestion des fonctionnalités, ainsi que la remise de fonctionnalités et de modèles.

Scénario d'entreprise

Analysons un scénario pour Tailwind Traders dans son service de fabrication d’équipement lourd. Tailwind Traders utilise les services cloud Azure pour ses besoins en Big Data. La société utilise à la fois des données de traitement par lots et des données de streaming. Le service emploie des ingénieurs Données, des scientifiques des données et des analystes Données qui collaborent à la création de rapports pertinents pour de nombreux intervenants. Pour répondre aux exigences du Big Data, vous envisagez de recommander Azure Databricks et d’implémenter l’environnement Data Science and Engineering.

Voyons pourquoi Azure Databricks peut être le bon choix pour répondre à ces exigences.

  • Azure Databricks fournit un espace de travail analytique intégré basé sur Apache Spark qui permet la collaboration entre différents utilisateurs.
  • En utilisant des composants Spark comme Spark SQL et des dataframes, Azure Databricks peut traiter les données structurées. Il intègre des outils d’ingestion de données en temps réel comme Kafka et Flume pour le traitement des données de streaming.
  • Les fonctionnalités d’intégration de données sécurisées s’appuyant sur Spark vous permettent d’unifier vos données sans centralisation. Les scientifiques des données peuvent visualiser les données en quelques étapes et utiliser des outils familiers comme Matplotlib, ggplot ou d3.
  • Le runtime Azure Databricks masque la complexité de l’infrastructure et vous évite de recourir à une expertise spécialisée pour installer et configurer votre infrastructure de données. Les utilisateurs peuvent utiliser leurs compétences existantes pour Python, Scala et R, et explorer les données.
  • Azure Databricks intègre en profondeur les bases de données et les magasins Azure comme Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage et le Stockage Blob Azure. Il prend en charge diverses plateformes de magasin de données, qui répondent aux besoins de stockage de Big Data de Tailwind Traders.
  • L’intégration de Power BI permet d’obtenir des insights rapides et significatifs, ce qui est une des exigences de Tailwind Traders.
  • Azure Databricks SQL n’est pas le bon choix, car il ne peut pas traiter les données non structurées.
  • Azure Databricks Machine Learning n’est pas non plus le bon choix d’environnement, car le machine learning n’est pas une exigence dans ce scénario.

Points à prendre en compte pour utiliser Azure Databricks

Vous pouvez utiliser Azure Databricks comme solution pour plusieurs scénarios. Réfléchissez aux avantages que le service peut apporter à votre solution d’intégration de données pour Tailwind Traders.

  • Prenez en compte la préparation de niveau science des données pour vos données. Créez, clonez et modifiez des clusters de données complexes non structurées. Transformez les clusters de données en travaux spécifiques. Fournissez les résultats aux scientifiques des données et aux analystes données pour qu’ils les examinent.
  • Prenez en compte les insights dans les données. Implémentez Azure Databricks pour créer des moteurs de recommandations, une analyse d’attrition et une détection des intrusions.
  • Tenez compte de la productivité au sein des équipes données et analytiques. Créez un environnement collaboratif et des espaces de travail partagés pour les ingénieurs, les analystes et les scientifiques des données. Les équipes peuvent travailler ensemble tout au long du cycle de vie de la science des données avec des espaces de travail partagés, ce qui permet de gagner du temps et des ressources précieuses.
  • Prenez en compte les charges de travail de Big Data. Utilisez Azure Data Lake et le moteur pour obtenir les meilleures performances et fiabilité pour vos charges de travail de Big Data. Créez des pipelines de données multi-étapes sans problème.
  • Prenez en compte les programmes de machine learning. Tirez parti de l’environnement de machine learning intégré de bout en bout. Il incorpore des services managés pour le suivi des expériences, l’entraînement de modèle, le développement et la gestion des fonctionnalités, ainsi que la remise de fonctionnalités et de modèles.