Condividi tramite


Panoramica della zona di destinazione della gestione dei dati di analisi su scala cloud

La zona di destinazione della gestione dei dati è una funzione di gestione ed è fondamentale per l'analisi su scala cloud. È responsabile della governance della piattaforma di analisi.

Diagram of data management landing zone overview.

La zona di destinazione della gestione dei dati è una sottoscrizione separata con gli stessi servizi della zona di destinazione di Azure standard. Consente la governance dei dati dei dati tramite crawler, che si connettono ai data lake e all'archiviazione poliglotta nelle zone di destinazione dei dati. Il peering di rete virtuale connette la zona di destinazione della gestione dei dati alle zone di destinazione dei dati e alla sottoscrizione di connettività.

Usare questa architettura come punto di partenza. Scaricare il file di Visio e modificarlo in base ai requisiti aziendali e tecnici specifici durante la pianificazione dell'implementazione della zona di destinazione della gestione dei dati.

Nota

La persistenza poliglotta è un termine di archiviazione che descrive la scelta tra diverse tecnologie di archiviazione dati/archivi dati per supportare i vari tipi di dati e le relative esigenze di archiviazione. Essenzialmente, la persistenza poliglotta è il concetto che un'applicazione può usare più di un database principale o tecnologia di archiviazione.

Importante

La zona di destinazione della gestione dei dati deve essere distribuita come sottoscrizione separata in un gruppo di gestione con la governance appropriata. È quindi possibile controllare la governance nell'organizzazione. L'acceleratore di zona di destinazione di Azure illustra come affrontare le zone di destinazione di Azure.

Catalogo dati

Gruppo di risorse: governance-rg

Il catalogo dati registra e gestisce le informazioni sui dati in una posizione centralizzata e la rende disponibile per l'organizzazione. Garantisce che le aziende evitino prodotti dati duplicati causati dall'inserimento di dati ridondanti da team di progetto diversi.

È consigliabile effettuare il provisioning di un servizio catalogo dati per definire i metadati dei prodotti dati archiviati nelle zone di destinazione dei dati.

L'analisi su scala cloud si basa su Microsoft Purview per fungere da:

  • Un sistema di registrazione
  • Individuazione per le origini dati aziendali
  • Un motore di classificazione dei dati
  • Un archivio criteri
  • API per la registrazione e la lettura delle informazioni sui dati
  • Un hub del dashboard di conformità

Poiché il catalogo dati fa parte della zona di destinazione di gestione dei dati, può comunicare con ogni zona di destinazione dei dati tramite il peering di rete virtuale e i runtime di integrazione self-hosted. L'individuazione dei prodotti dati negli archivi locali e in altri cloud pubblici è ottenuta da più distribuzioni di runtime di integrazione self-hosted.

Nota

Anche se questa documentazione è incentrata principalmente sull'uso di Microsoft Purview per le funzionalità e la classificazione dei dati del catalogo dati, le aziende potrebbero aver investito in altri prodotti, ad esempio Alation, Okera o Collibra. In questo caso, rivolgersi al fornitore per applicare i principi descritti per una zona di destinazione di gestione dei dati il più vicino possibile. Occorre essere consapevoli che potrebbe essere necessaria un'integrazione personalizzata.

Per altre informazioni, vedere Catalogo dati e Procedure consigliate per la distribuzione di Microsoft Purview per l'analisi su scala cloud.

Gestione della qualità dei dati

Gruppo di risorse: governance-rg2

Continuare con la soluzione corrente.

È consigliabile gestire la qualità dei dati il più vicino possibile all'origine dati, in modo da evitare problemi di qualità che vengono replicati nell'ambiente di analisi e intelligenza artificiale. Lo spostamento delle metriche e della convalida della qualità all'integrazione dei dati allinea il processo di qualità ai team più vicini ai dati. Questi team hanno la conoscenza più approfondita dell'asset di dati.

La derivazione dei dati offre anche la sicurezza della qualità dei dati e deve essere fornita per tutti i prodotti e i prodotti dati.

Per altre informazioni sulla gestione della qualità dei dati, vedere Data Quality.

Repository di modellazione dei dati

Gruppo di risorse: governance-rg2

È consigliabile acquisire e archiviare modelli di relazione di entità in una posizione centrale all'interno della zona di destinazione di gestione dei dati. In questo modo i consumer di dati sono un'unica posizione per trovare diagrammi concettuali.

Molti clienti usano ER Studio e iServer per modellare i prodotti dati prima dell'inserimento.

Gestione dei dati master

Gruppo di risorse: governance-rg2

Il controllo di gestione dei dati master si trova nella zona di destinazione di gestione dei dati. La gestione dei dati master nella mesh di dati contiene considerazioni specifiche da chiamare per la mesh di dati.

Molte soluzioni di gestione dei dati master si integrano completamente con Microsoft Entra ID. Questa integrazione consente di proteggere i dati e fornire visualizzazioni diverse per gruppi di utenti diversi.

Per altre informazioni, vedere Sistema di gestione dei dati master.

Catalogo API

Gruppo di risorse: governance-rg2

I team dell'applicazione dati in genere creeranno varie API per l'applicazione dati. Queste API possono essere difficili da individuare nell'organizzazione. L'inserimento di un catalogo API nella zona di destinazione di gestione dei dati può risolvere questo problema.

Un catalogo API consente di standardizzare la documentazione e offre una posizione per la collaborazione interna sulle API. Può anche favorire il consumo, la pubblicazione e i controlli di governance nell'intera organizzazione.

Condivisione dei dati e contratti

Gruppo di risorse: governance-rg2

L'analisi su scala cloud usa la gestione entitlement di Microsoft Entra o i criteri di Microsoft Purview per controllare l'accesso alla condivisione dei dati. Anche in questo caso, potrebbe comunque essere necessario un repository di condivisione e contratto. Questo repository è una funzione organizzativa e deve risiedere nella zona di destinazione di gestione dei dati.

I contratti devono fornire informazioni sulla convalida dei dati, i modelli e i criteri di sicurezza.

Per altre informazioni, vedere Contratti dati

Registro Azure Container

Gruppo di risorse: containers-rg

La zona di destinazione di gestione dei dati ospita un Registro Azure Container. Il Registro Azure Container consente alle operazioni della piattaforma dati di distribuire contenitori standard da usare nei progetti di data science usati dai team dell'applicazione dati.

Gruppo di risorse: synapse-link-rg

Gli hub di Azure Synapse Analytics collegamento privato sono risorse di Azure che connettono la rete protetta e l'esperienza Web di Azure Synapse Studio. L'analisi su scala cloud connette in modo sicuro i Rete virtuale di Azure ad Azure Synapse Studio usando collegamenti privati da questi hub.

Esistono due passaggi per connettersi ad Azure Synapse Studio usando i collegamenti privati.

  1. Creare una risorsa hub collegamento privato.
  2. Creare un endpoint privato dall'Rete virtuale di Azure a tale hub collegamento privato.

A questo punto si possono usare gli endpoint privati per comunicare in modo sicuro con Azure Synapse Studio. Integrare questi endpoint privati con la soluzione DNS, con la soluzione locale o con Azure DNS privato.

Per altre informazioni, vedere Connettersi ad Azure Synapse Studio usando i collegamenti privati.

Interfacce di automazione (facoltativo)

L'organizzazione potrebbe decidere di creare molti servizi di automazione per aumentare le funzionalità di analisi su scala cloud. Questi servizi di automazione guidano soluzioni di conformità e onboarding per lo stato di analisi.

Se si decide di creare questi servizi di automazione, è necessario disporre di un'interfaccia utente che funge sia da marketplace dati che da console operativa. Questa interfaccia deve basarsi su un archivio di metadati sottostante come descritto in precedenza negli standard dei metadati.

Il marketplace dei dati o la console operatore chiama un livello intermedio di microservizi per facilitare l'onboarding, la registrazione dei metadati, il provisioning della sicurezza, il ciclo di vita dei dati e l'osservabilità.

È possibile effettuare il provisioning del gruppo di risorse automationdb-rg per ospitare l'archivio metadati.

Importante

Nessuno di questi servizi di automazione sono prodotti e non illustrano alcun elemento della roadmap. Sono elencati per valutare quali elementi si desidera automatizzare.

Servizi

Servizioo Ambito del servizio
Provisioning della zona di destinazione dei dati Questo servizio crea una nuova zona di destinazione dei dati. È improbabile che si verifichi un utilizzo elevato, ma è incluso per la completezza della soluzione di onboarding end-to-end. Per altre informazioni, vedere Effettuare il provisioning dell'analisi su scala cloud
Onboarding del prodotto dati Questo servizio crea e modifica i gruppi di risorse relativi a un tenant di cui è stato eseguito l'onboarding. Contiene anche funzionalità per aggiornare e ridurre gli SKU e attivare e disattivare i gruppi di risorse per qualsiasi tenant o servizio di cui è stato eseguito l'onboarding. Crea una nuova zona di destinazione dei dati DevOps. Per altre informazioni, vedere Effettuare il provisioning dell'analisi su scala cloud
Provisioning di accesso Questo servizio crea pacchetti di accesso, criteri di accesso e processo di approvazione dell'accesso degli asset (manuale o automatico) tramite SPN/UPN. Può anche esporre un'API per fornire un elenco di richieste di sottoscrizione (asset) inviate dagli utenti negli ultimi 90 giorni. Per altre informazioni, vedere Gestione dell'accesso ai dati
Inserimento indipendente dai dati Questo microservizio crea nuove origini dati per l'inserimento nelle zone di destinazione dei dati. Questa operazione viene eseguita comunicando con un'istanza di Azure Data Factory database SQL metastore in ogni zona di destinazione dei dati. Per altre informazioni, vedere Come i framework di inserimento automatizzato supportano l'analisi su scala cloud in Azure
Metadati UFX Questo servizio ha esposto e crea metadati per la piattaforma. Per altre informazioni, vedere Standard di metadati
Ciclo di vita dei dati Questo servizio è responsabile della gestione del ciclo di vita dei dati in base ai metadati. Questa manutenzione può includere lo spostamento dei dati nell'archiviazione ad accesso sporadico e l'eliminazione di record che non devono più essere conservati. Per altre informazioni, vedere Gestione del ciclo di vita dei dati
Onboarding del dominio dati APPLICABILE SOLO A DATA MESH. Questo servizio acquisisce i metadati relativi ai nuovi domini ed esegue l'onboarding dei nuovi domini in base alle esigenze. Può anche creare, aggiornare, attivare e disattivare qualsiasi riga di dominio o servizio che è possibile compilare in un microservizio. Per altre informazioni, vedere Effettuare il provisioning dell'analisi su scala cloud

Standardizzazione dei dati

Anche se non è una funzionalità o un prodotto specifico della zona di destinazione di gestione dei dati, è consigliabile chiamare la standardizzazione dei dati in tutti i servizi. La standardizzazione dei dati definisce il formato in cui i dati devono essere archiviati e archiviati.

Suggerimento

Usare il formato delta lake laddove possibile come standard defacto in tutti i servizi e l'archiviazione.

Per altre informazioni, vedere Standardizzazione dei dati.

Passaggi successivi