Qualità dei dati per i database del catalogo Unity di databricks
Articolo
Per usare Unity Catalog, l'area di lavoro di Azure Databricks deve essere abilitata per Unity Catalog, ovvero l'area di lavoro è collegata a un metastore del catalogo Unity. Tutte le nuove aree di lavoro vengono abilitate automaticamente per Unity Catalog al momento della creazione, ma le aree di lavoro meno recenti potrebbero richiedere che un amministratore dell'account abiliti manualmente Unity Catalog. Indipendentemente dal fatto che l'area di lavoro sia stata abilitata automaticamente per Unity Catalog, sono necessari anche i passaggi seguenti per iniziare a usare Unity Catalog:
Creare cataloghi e schemi per contenere oggetti di database come tabelle e volumi.
Creare percorsi di archiviazione gestiti per archiviare le tabelle e i volumi gestiti in questi cataloghi e schemi.
Concedere all'utente l'accesso a cataloghi, schemi e oggetti di database.
Le aree di lavoro abilitate automaticamente per Unity Catalog eseguono il provisioning di un catalogo di aree di lavoro con privilegi generali concessi a tutti gli utenti dell'area di lavoro. Questo catalogo è un punto di partenza pratico per provare Unity Catalog.
Durante l'analisi del catalogo Unity di Azure Databricks, Microsoft Purview supporta:
Metastore
Cataloghi
Schemi
Tabelle che includono le colonne
Viste incluse le colonne
Quando si configura l'analisi, è possibile scegliere di analizzare l'intero catalogo Unity o di definire l'ambito dell'analisi in un subset di cataloghi.
Configurare l'analisi della mappa dati per catalogare i dati del catalogo Di Databricks Unity in Microsoft Purview
Registrare un'area di lavoro di Azure Databricks in Microsoft Purview
Analizzare l'area di lavoro di Azure Databricks registrata
Immettere il nome dell'analisi
Selezionare il catalogo unity come metodo di estrazione
Connettersi tramite il runtime di integrazione (runtime di integrazione di Azure, runtime di integrazione della rete virtuale gestita o un runtime di integrazione self-hosted supportato da Kubernetes creato)
Specificare il percorso HTTP di SQL Warehouse di Databricks a cui Microsoft Purview si connetterà ed eseguirà l'analisi
Nella pagina Ambito analisi selezionare i cataloghi da analizzare.
Selezionare un set di regole di analisi per la classificazione. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline. Per altre informazioni, vedere l'articolo Classificazione.
Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.
Esaminare l'analisi e selezionare Salva ed esegui.
Visualizzare le analisi e l'esecuzione dell'analisi per completare la catalogazione dei dati.
Dopo l'analisi, l'asset di dati in Unity Catalog (UC) sarà disponibile in Microsoft Purview Unified Catalog ricerca. Per altre informazioni su come connettersi e gestire il catalogo Unity di Azure Databricks in Microsoft Purview, seguire questo documento.
Importante
Selezionare Autenticazione token di accesso durante la creazione di credenziali.
Inserire il token di accesso nel Key Vault di Azure ospitato e connettere l'insieme di credenziali delle chiavi alla gestione connessione.
Assicurarsi di fornire al prodotto (servizio) l'accesso msi read (segreto) al Key Vault.
Configurare la connessione a databricks UC per l'analisi della qualità dei dati
A questo punto l'asset analizzato è pronto per la catalogazione e la governance. Associare l'asset analizzato al prodotto dati in un sele di dominio di governance. Nella scheda Data Quality (Qualità dati) aggiungere una nuova connessione al database Azure SQL: ottenere il nome del database immesso manualmente.
Selezionare la scheda Gestione dominio > di governance della qualità > dei dati per creare la connessione.
Configurare la connessione nella pagina di connessione.
Aggiungere il nome e la descrizione della connessione
selezionare il tipo di origine Azure Databricks
selezionare l'URL dell'area di lavoro
selezionare Catalogo Unity come metodo di estrazione
selezionare percorso HTTP
selezionare il nome del catalogo unity
selezionare il nome dello schema
selezionare il nome della tabella
selezionare il metodo di autenticazione - Token di accesso
Aggiungere una sottoscrizione di Azure
Connessione dell'insieme di credenziali delle chiavi
nome del segreto
versione del segreto
Testare la connessione
Importante
Gli amministratori della qualità dei dati devono accedere in sola lettura al catalogo Unity di Azure databrics per configurare la connessione alla qualità dei dati.
La rete virtuale non è ancora supportata.
Analisi della profilatura e della qualità dei dati per i dati nei database del catalogo Unity di Azure Databricks.
Dopo aver completato correttamente l'installazione della connessione, è possibile profilare, creare e applicare regole ed eseguire l'analisi DQ dei dati nei database del catalogo Unity di Azure Databricks. Seguire le linee guida dettagliate descritte nei documenti seguenti:
Questo modulo di training guiderà nella creazione di uno stack completo per la gestione dei dati master e la governance dei dati end-to-end con Microsoft Purview e CluedIn. Include lo sviluppo di record golden, la deduplicazione, la derivazione dei dati e strategie di qualità dei dati.
Amministrare un'infrastruttura di database SQL Server per database relazionali, ibridi, locali e cloud con le offerte di database relazionali Microsoft PaaS.
Informazioni su come connettersi ad Azure Databricks in Microsoft Purview e come usare Microsoft Purview per analizzare e gestire l'origine di Azure Databricks.
Informazioni su come applicare analisi della qualità dei dati agli asset all'interno di Archiviazione di Azure usando Microsoft Purview Unified Catalog.
Ottenere una panoramica delle regole di qualità dei dati in Microsoft Purview Unified Catalog e come usarle per aumentare la qualità e l'affidabilità dei dati.