Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article traite des conseils architecturaux pour le lakehouse en termes de source de données, d’ingestion, de transformation, d’interrogation et de traitement, de service, d’analyse et de stockage.
Chaque architecture de référence est accompagnée d’un PDF téléchargeable au format 11 x 17 (A3).
Bien que le lakehouse sur Databricks soit une plateforme ouverte qui s’intègre à un vaste écosystème d’outils partenaires, les architectures de référence se concentrent uniquement sur les services Azure et le lac Databricks. Les services de fournisseur de cloud présentés sont sélectionnés pour illustrer les concepts et ne sont pas exhaustifs.
Télécharger : Architecture de référence pour Azure Databricks Lakehouse
L’architecture de référence Azure montre les services spécifiques à Azure suivants pour l’ingestion, le stockage, le service et l’analyse :
- Azure Synapse et SQL Server en tant que systèmes sources pour la fédération Lakehouse
- Azure IoT Hub et Azure Event Hubs pour l’ingestion par diffusion en continu
- Azure Data Factory pour l’ingestion par lots
- Azure Data Lake Storage Gen 2 (ADLS) comme stockage d’objets pour les ressources de données et d’IA
- Azure SQL DB et Azure Cosmos DB en tant que bases de données opérationnelles
- Azure Purview en tant que catalogue d’entreprise vers lequel l’UC exporte des informations de schéma et de traçabilité
- Power BI en tant qu’outil décisionnel
- Azure OpenAI peut être utilisé par Model Serve en tant que LLM externe
Organisation des architectures de référence
L’architecture de référence est structurée le long des voies de nage Source, Ingérer, Transformer, Requête/Processus, Servir, Analyseet Stockage:
Source
Il existe trois façons d’intégrer des données externes dans la plateforme Data Intelligence :
- ETL : La plateforme permet l’intégration à des systèmes qui fournissent des données semi-structurées et non structurées (telles que des capteurs, des appareils IoT, des médias, des fichiers et des journaux), ainsi que des données structurées à partir de bases de données relationnelles ou d’applications métier.
- Lakehouse Federation : les sources SQL, telles que les bases de données relationnelles, peuvent être intégrées dans le catalogue Lakehouse et Unity sans ETL. Dans ce cas, les données système sources sont régies par le catalogue Unity et les requêtes sont envoyées au système source.
- Fédération de catalogue : les catalogues de metastore Hive peuvent également être intégrés dans le catalogue Unity par le biais de la fédération de catalogue, ce qui permet au catalogue Unity de contrôler les tables stockées dans le metastore Hive.
Ingestion
Ingérer des données dans la lakehouse par traitement par lots ou en diffusion en continu :
- Databricks Lakeflow Connect offre des connecteurs intégrés pour l’ingestion à partir d’applications et de bases de données d’entreprise. Le pipeline d’ingestion résultant est régi par Unity Catalog et est alimenté par le calcul informatique sans serveur et par Lakeflow Declarative Pipelines.
- Les fichiers remis au stockage cloud peuvent être chargés directement à l’aide du chargement automatique Databricks.
- Pour l’ingestion par lots de données provenant d’applications d’entreprise dans Delta Lake, le lakehouse Databricks s’appuie sur des outils d’ingestion partenaires dotés d’adaptateurs spécifiques pour ces systèmes d’enregistrement.
- Les événements diffusés en continu peuvent être ingérés directement à partir de systèmes de diffusion d’événements tels que Kafka à l’aide du Structured Streaming de Databricks. Les sources de diffusion en continu peuvent être des capteurs, des IoT ou des processus decapture de données modifiées.
Stockage
- Les données sont généralement stockées dans le système de stockage cloud où les pipelines ETL utilisent l’architecture de médaillon pour stocker les données de manière organisée en tant que tables/fichiers Delta ou Apache Iceberg.
Transformation et requête / traitement
Le lakehouse Databricks utilise ses moteurs Apache Spark et Photon pour toutes les transformations et requêtes.
Lakeflow Declarative Pipelines est une infrastructure déclarative permettant de simplifier et d’optimiser les pipelines de traitement de données fiables, gérables et testables.
Alimentée par Apache Spark et Photon, la Databricks Data Intelligence Platform prend en charge les deux types de charges de travail : Les requêtes SQL via les entrepôts SQL, et les charges de travail SQL, Python et Scala via les clusters d’espace de travail .
Pour la science des données (Modélisation ML et Gen AI), la plateforme Databricks IA et Machine Learning fournit des runtimes ML spécialisés pour AutoML et pour le codage des tâches ML. Tous les flux de travail d’opérations d’apprentissage automatique (MLOps) et de science des données sont les mieux pris en charge par MLflow.
Service
Pour les cas d’usage d’entreposage de données (DWH) et BI, le Databricks lakehouse fournit Databricks SQL, l’entrepôt de données alimenté par des entrepôts SQL et des entrepôts SQL sans serveur.
Pour l'apprentissage automatique, Mosaic AI Model Serving est une fonction évolutive de service de modèles en temps réel de niveau entreprise, hébergée dans le plan de contrôle Databricks. Mosaic AI Gateway est la solution Databricks pour régir et surveiller l’accès aux modèles IA génératifs pris en charge et aux points de terminaison associés pour le service de modèle.
Bases de données opérationnelles : Les systèmes externes, tels que les bases de données opérationnelles, peuvent être utilisés pour stocker et fournir des produits de données finaux aux applications utilisateur.
Collaboration : Les partenaires commerciaux bénéficient d’un accès sécurisé aux données dont ils ont besoin via le Partage Delta. Basé sur le partage Delta, la Place de marché Databricks est un forum ouvert pour échanger des produits de données.
- Les salles propres sont des environnements sécurisés et de protection de la confidentialité où plusieurs utilisateurs peuvent travailler ensemble sur des données d’entreprise sensibles sans accès direct aux données des uns des autres.
Analyse
Les dernières applications de gestion se trouvent dans ce couloir. les exemples incluent des clients personnalisés tels que des applications ia connectées au service de modèles ia mosaic pour l’inférence en temps réel ou les applications qui accèdent aux données envoyées à partir du lakehouse vers une base de données opérationnelle.
Pour les cas d’usage décisionnels (BI), les analystes utilisent généralement outils décisionnels pour accéder à l’entrepôt de données. Par ailleurs, les développeurs SQL peuvent utiliser l’éditeur SQL de Databricks (non illustré dans le diagramme) pour les requêtes et les tableaux de bord.
La plateforme Data Intelligence propose également des tableaux de bord qui permettent de créer des visualisations de données et de partager des insights.
Intégrer
- la plateforme databricks s’intègre aux fournisseurs d’identité standard pour la gestion des utilisateurs et l’authentification unique (sso).
Des services IA externes tels que OpenAI, LangChain ou HuggingFace peuvent être utilisés directement à partir de la plateforme Databricks Intelligence.
Les orchestrateurs externes peuvent utiliser l’API REST complète ou des connecteurs dédiés à des outils d’orchestration externes comme Apache Airflow.
Unity Catalog est utilisé pour la gouvernance de toutes les données et de l’IA dans Databricks Intelligence Platform et peut intégrer d’autres bases de données dans sa gouvernance via Lakehouse Federation.
De plus, Unity Catalog peut être intégré à d’autres catalogues d’entreprise, par exemple Purview. Pour plus d’informations, contactez le fournisseur du catalogue d’entreprise.
Fonctionnalités courantes pour toutes les charges de travail
De plus, le lakehouse de Databricks est doté de capacités de gestion qui prennent en charge toutes les charges de travail :
Gouvernance des données et de l’IA
Le système central de gouvernance des données et de l’IA sur la plateforme Databricks Data Intelligence est le Unity Catalog. Unity Catalog fournit un emplacement unique pour gérer les stratégies d’accès aux données qui s’appliquent à tous les espaces de travail et prend en charge toutes les ressources créées ou utilisées dans le lakehouse, telles que les tables, les volumes, les fonctionnalités (magasin de fonctionnalités) et les modèles (registre de modèles). Unity Catalog peut également être utilisé pour capturer le lignage des données en temps réel dans les requêtes exécutées sur Databricks.
La surveillance de lakehouse de Databricks vous permet de surveiller la qualité des données de toutes les tables de votre compte. Il peut également suivre les performances des modèlesMachine Learning et des points de terminaison de mise en service de modèles.
Pour l’observabilité, les tables système sont un magasin analytique hébergé par Databricks des données opérationnelles de votre compte. Les tables système peuvent être utilisées pour l’observabilité historique de votre compte.
Moteur d'intelligence des données
La plateforme Databricks Data Intelligence permet à l'ensemble de votre organisation d'exploiter les données et l'IA, en combinant l'IA générative avec les avantages d'un data lake unifié pour comprendre la sémantique unique de vos données. Consultez les fonctionnalités alimentées par l'IA Databricks.
L’Assistant Databricks est disponible dans les notebooks Databricks, l’éditeur SQL, l’éditeur de fichiers et ailleurs en tant qu’assistant IA prenant en charge le contexte pour les utilisateurs.
Automatisation & Orchestration
Les travaux Lakeflow orchestrent le traitement des données, l'apprentissage machine et les pipelines d'analyse sur la plateforme Databricks Data Intelligence. Les pipelines déclaratifs Lakeflow vous permettent de créer des pipelines ETL fiables et gérables avec une syntaxe déclarative. La plateforme prend également en charge CI/CD et MLOps
Cas d’usage généraux pour la plateforme Data Intelligence sur Azure
Ingestion intégrée à partir d’applications et de bases de données SaaS avec Lakeflow Connect
Télécharger : Architecture de référence Lakeflow Connect pour Azure Databricks.
Databricks Lakeflow Connect offre des connecteurs intégrés pour l’ingestion à partir d’applications et de bases de données d’entreprise. Le pipeline d’ingestion résultant est régi par Unity Catalog et est alimenté par le calcul informatique sans serveur et par Lakeflow Declarative Pipelines.
Lakeflow Connect tire parti de lectures et d’écritures incrémentielles efficaces pour rendre l’ingestion de données plus rapide, évolutive et plus économique, vos données restant à jour pour une consommation en aval.
Ingestion par lots et ETL
Télécharger : Architecture de référence ETL par lots pour Azure Databricks
Les outils d’ingestion utilisent des adaptateurs spécifiques à la source pour lire des données à partir de la source, puis les stocker dans le stockage cloud à partir duquel le chargeur automatique peut le lire, ou appeler Databricks directement (par exemple, avec des outils d’ingestion partenaires intégrés dans databricks lakehouse). Pour charger les données, le moteur de traitement ETL de Databricks exécute les requêtes via des pipelines déclaratifs Lakeflow. Orchestrez des tâches uniques ou multitâches à l’aide de Travaux Lakeflow et régissez-les à l’aide du catalogue Unity (contrôle d’accès, audit, traçabilité, etc.). Pour fournir l’accès à des tables d’or spécifiques pour les systèmes opérationnels à faible latence, exportez les tables vers une base de données opérationnelle telle qu’un SGBDR ou un magasin clé-valeur à la fin du pipeline ETL.
Diffusion en continu et capture des changements de données (CDC)
Télécharger : Architecture de diffusion en continu structurée Spark pour Azure Databricks
Le moteur DATAbricks ETL utilise Spark Structured Streaming pour lire des files d’attente d’événements telles qu’Apache Kafka ou Azure Event Hub. Les étapes en aval suivent l’approche du cas d’usage Batch ci-dessus.
La capture de données modifiées en temps réel (CDC) utilise généralement une file d’attente d’événements pour stocker les événements extraits. À partir de là, le cas d’usage suit celui de la diffusion en continu.
Si le CDC est effectué par lots et que les enregistrements extraits sont d’abord stockés dans le cloud, Databricks Autoloader peut les lire et le cas d’utilisation correspond à l’ETL par lots.
Machine Learning et IA (traditionnelle)
Pour l’apprentissage automatique, la plateforme de Data Intelligence de Databricks fournit Mosaic AI, qui comprend des bibliothèques de Machine Learning et de Deep Learning à la pointe de la technologie. Il fournit des fonctionnalités telles que le Magasin de fonctionnalités et le Registre de modèles (à la fois intégrés dans le catalogue Unity), les fonctionnalités à faible code avec AutoML et l’intégration MLflow au cycle de vie de la science des données.
Toutes les ressources liées à la science des données (tables, caractéristiques et modèles) sont régies par Unity Catalog et les scientifiques des données peuvent utiliser Lakeflow Jobs pour orchestrer leurs tâches.
Pour déployer des modèles de manière évolutive et professionnelle, utilisez les fonctionnalités MLOps pour publier les modèles dans le service de modèle.
Applications de l’agent IA (Gen AI)
Télécharger : Architecture de référence des applications Gen AI pour Azure Databricks
Pour déployer des modèles de manière évolutive et à l’échelle de l’entreprise, utilisez les capacités des MLOps pour publier les modèles dans le service de modèles.
Analytique BI et SQL
Télécharger : Architecture de référence pour la décision et l’analytique SQL pour Azure Databricks
Pour les cas d’usage décisionnels, les analystes métier peuvent utiliser des tableaux de bord, l’éditeur SQL Databricks ou les outils BI tels que Tableau ou Power BI. Dans tous les cas, le moteur est Databricks SQL (serverless ou non serverless), et Unity Catalog fournit la découverte, l’exploration et le contrôle d’accès des données.
Fédération Lakehouse
Architecture de référence pour la fédération Lakehouse dans Azure Databricks.
Télécharger : Architecture de référence de la fédération Lakehouse pour Azure Databricks
Lakehouse Federation permet aux bases de données SQL externes (telles que MySQL, Postgres, SQL Server ou Azure Synapse) d’être intégrées à Databricks.
Toutes les charges de travail (IA, DWH et BI) peuvent en bénéficier sans qu’il soit nécessaire de procéder au préalable à l’ETL des données dans le stockage objet. Le catalogue source externe est mappé dans le catalogue Unity et le contrôle d’accès affiné peut être appliqué pour accéder via la plateforme Databricks.
Fédération de catalogues
Télécharger : Architecture de référence de fédération de catalogue pour Azure Databricks
La fédération de catalogue permet aux metastores Hive externes (tels que MySQL, Postgres, SQL Server ou Azure Synapse) d’être intégrés à Databricks.
Toutes les charges de travail (IA, DWH et BI) peuvent en bénéficier sans qu’il soit nécessaire de procéder au préalable à l’ETL des données dans le stockage objet. Le catalogue source externe est ajouté au catalogue Unity où le contrôle d’accès affiné est appliqué via la plateforme Databricks.
Partager des données avec des outils tiers
Le partage de données de niveau entreprise avec les tiers est fourni par Delta Sharing. Il permet un accès direct aux données dans le magasin d’objets sécurisé par Unity Catalog. Cette fonctionnalité est également utilisée dans la Place de marché Databricks, un forum ouvert pour l’échange de produits de données.
Consommer des données partagées à partir de Databricks
Le protocole Delta Sharing Databricks-to-Databricks permet de partager des données en toute sécurité avec n'importe quel utilisateur Databricks, quel que soit le compte ou l'hôte cloud, tant que cet utilisateur a accès à un espace de travail activé pour Unity Catalog.