Condividi tramite


Configurare la qualità dei dati per i dati Snowflake

Durante l'analisi delle origini dati Snowflake, Microsoft Purview supporta l'estrazione di metadati tecnici, tra cui:

  • Server, database, schemi e tabelle, incluse le colonne; incluse le colonne, le chiavi esterne e i vincoli univoci.
  • Stored procedure, inclusi il set di dati dei parametri e il set di risultati.
  • Funzioni, incluso il set di dati dei parametri.
  • Pipe, fasi e flussi, incluse le colonne.
  • Attività e sequenze.

Configurare l'analisi della mappa dati per catalogare i dati snowflake in Microsoft Purview

Registrare un'origine Snowflake

Per registrare una nuova origine Snowflake in Unified Catalog, seguire questa procedura:

  • Accedere al portale di Microsoft Purview.
  • Selezionare la scheda della soluzione Mappa dati . Se la scheda della soluzione Mappa dati non è visualizzata, selezionare Visualizza tutte le soluzioni e quindi Selezionare Mappa dati nella sezione Core .
  • Selezionare Registra.
  • In Registra origini selezionare Snowflake.

Configurare un'analisi della mappa dati

  • Selezionare l'origine Snowflake registrata.
  • Selezionare + Nuova analisi.
  • Specificare i dettagli seguenti:
    • Nome: nome dell'analisi
    • Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione autoresoluto di Azure, il runtime di integrazione gestita Rete virtuale o SHIR in base allo scenario.
    • Host per la connessione: scegliere l'endpoint usato per stabilire la connessione a Snowflake durante l'analisi. È possibile scegliere tra l'URL del server o gli altri host configurati nell'origine dati.
    • Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:
      • Selezionare Autenticazione di base durante la creazione di credenziali.
      • Specificare il nome utente usato per connettersi a Snowflake nel campo di input Nome utente.
      • Archiviare la password utente usata per connettersi a Snowflake nella chiave privata.
    • Warehouse: specificare il nome dell'istanza del magazzino usata per consentire l'analisi in maiuscolo. Il ruolo predefinito assegnato all'utente specificato nelle credenziali deve disporre dei diritti USAGE in questo warehouse.
    • Database: specificare uno o più nomi di istanza di database da importare in maiuscolo. Separare i nomi nell'elenco con un punto e virgola (;). Ad esempio, DB1; DB2. Il ruolo predefinito assegnato all'utente specificato nelle credenziali deve disporre di diritti adeguati per gli oggetti di database.
    • Schema: elenco di subset di schemi da importare espressi come elenco separato da punto e virgola.
  • Selezionare Test connessione per convalidare le impostazioni (disponibili quando si usa Azure Integration Runtime).
  • Selezionare Continua.
  • Selezionare un set di regole di analisi per la classificazione. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline.
  • Esaminare l'analisi e selezionare Salva ed esegui.

Dopo l'analisi, l'asset di dati in Snowflake sarà disponibile nella ricerca Unified Catalog. Per altre informazioni su come connettersi e gestire Snowflake in Microsoft Purview, seguire questo documento.

Importante

Quando l'oggetto viene eliminato dall'origine dati, l'analisi successiva non rimuoverà automaticamente l'asset corrispondente in Microsoft Purview.

Configurare la connessione all'origine dati Snowflake per l'analisi della qualità dei dati

A questo punto, l'asset analizzato è pronto per la catalogazione e la governance. Associare l'asset analizzato al prodotto dati in un sele del dominio di governance. Nella scheda Data Quality (Qualità dati) aggiungere una nuova connessione al database Azure SQL: ottenere il nome del database immesso manualmente.

  1. Nel portale di Microsoft Purview aprire Unified Catalog.

  2. In Gestione dell'integrità selezionare Qualità dei dati.

  3. Selezionare un dominio di governance dall'elenco e quindi selezionare Connections dall'elenco a discesa Gestisci.

  4. Configurare la connessione nella pagina Connections:

    • Aggiungere il nome e la descrizione della connessione.
    • Selezionare il tipo di origine Snowflake.
    • Aggiungere Nome server, Nome warehouse, Nome database, Nome schema e Nome tabella.
    • Selezionare metodo di autenticazione - Autenticazione di base.
    • Aggiungi nome utente.
    • Aggiungi credenziali:
      • Aggiungere una sottoscrizione di Azure
      • Connessione dell'insieme di credenziali delle chiavi
      • Nome del segreto
      • Versione del segreto
    • Selezionare la casella di controllo Abilita rete virtuale gestita se Snowflake è in esecuzione in Azure Rete virtuale.
    • Selezionare l'area di Azure.
    • Aggiungere collegamento privato ID risorse.
    • Aggiungere un nome di dominio completo.
  5. Testare la connessione per assicurarsi che funzioni. Se si usa Rete virtuale, la funzionalità di connessione di test non è supportata.

    Screenshot che mostra come configurare la connessione snowflake.

    Screenshot che mostra come configurare il token di connessione snowflake.

L'ID risorsa per il collegamento privato Snowflake di destinazione è nel formato seguente: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region).

  • Per ottenere l'ID area e il nome completo, eseguire SYSTEM_WHITE_LIST e SYSTEM_WHITE_LIST_PRIVATELINK per ottenere i SNOWFLAKE_DEPLOYMENTvalori , SNOWFLAKE_DEPLOYMENT_REGIONLESSe OCSP_CACHE per gli host pubblici e consentiti.
  • Per ottenere l'ID sottoscrizione, eseguire SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO() come ACCOUNTADMIN per ottenere i valori snowflake-vnet-subnet-ids . L'ID sottoscrizione per il collegamento privato del tenant di Azure di Snowflake viene ottenuto da questo.

Importante

  • Gli amministratori della qualità dei dati devono accedere in sola lettura a Snowflake per configurare la connessione data quality.
  • Il connettore Snowflake non accetta https://. Rimuovere https:// quando si aggiunge il nome del server per configurare la connessione all'origine dati.
  • Se l'accesso pubblico è disabilitato, è necessario selezionare la casella di controllo Consenti servizi Microsoft attendibili per Key Vault. Questa operazione è necessaria solo per Key Vault, non per l'area di lavoro Snowflake.
  • Rete virtuale supporto è attualmente in anteprima e disponibile a livello globale. È temporaneamente incluso negli SKU di governance dei dati per mantenere la flessibilità durante questa fase. Rete virtuale prezzi non sono ancora disponibili e potrebbero essere effettuati prima della disponibilità generale della funzionalità.

Profilatura e analisi della qualità dei dati per i dati in Snowflake

Dopo aver completato correttamente la configurazione della connessione, è possibile profilare, creare e applicare regole ed eseguire un'analisi della qualità dei dati dei dati in Snowflake. Seguire le linee guida dettagliate descritte nei documenti seguenti:

Documenti di riferimento