Usare Azure Synapse Analytics con analisi su scala cloud

Articolo
10/07/2023

Azure Synapse Analytics è un servizio di analisi integrato con provisioning che accelera il tempo necessario per estrarre informazioni dettagliate da data warehouse e sistemi di Big Data. Azure Synapse Analytics riunisce:

Le migliori tecnologie SQL usate nel data warehousing aziendale.
Tecnologie Spark usate per i Big Data.
Pipeline per l'applicazione dati (allineata all'origine) e l'estrazione, la trasformazione e il caricamento (ETL) o l'estrazione, il caricamento e la trasformazione (ELT).

Azure Synapse Studio è uno strumento di Azure Synapse che offre un'esperienza unificata per la gestione, il monitoraggio, la codifica e la sicurezza. Synapse Studio prevede la piena integrazione con altri servizi di Azure, come Power BI, Azure Cosmos DB e Azure Machine Learning.

Nota

Questa sezione descrive le configurazioni previste specifiche per l'analisi su scala cloud. Si tratta di un complemento alla documentazione di Azure Synapse Analytics ufficiale.

Panoramica

Durante la configurazione iniziale di una zona di destinazione dei dati, è possibile distribuire una singola area di lavoro Azure Synapse Analytics per l'uso da parte di tutti gli analisti e gli scienziati dei dati. È possibile creare più aree di lavoro per integrazioni di dati o prodotti di dati specifici.

Potrebbero essere necessarie aree di lavoro aggiuntive di Azure Synapse Analytics se il prodotto dati deve fornire l'accesso ai dati standardizzati con sicurezza a livello di riga e a livello di colonna. È possibile fornire a queste aree di lavoro i pool di Azure Synapse. I team di prodotti dati potrebbero richiedere la propria area di lavoro per la creazione di prodotti dati e un'area di lavoro separata riservata ai team di prodotti con accesso allo sviluppo con ambito.

Configurazione di Azure Synapse Analytics

Il primo passaggio nella distribuzione di Azure Synapse Analytics consiste nel configurare un'area di lavoro di Azure Synapse connessa a un account Azure Purview.

Rete di Azure Synapse Analytics

Una zona di destinazione dei dati crea aree di lavoro con una rete virtuale gestita da Azure Synapse Analytics. La comunicazione con Azure Synapse avviene tramite i tre endpoint esposti: pool SQL, SQL su richiesta e l'endpoint di sviluppo.

A livello di rete, l'analisi su scala cloud usa endpoint privati gestiti da synapse. Questi endpoint assicurano che tutto il traffico tra la rete virtuale della zona di destinazione dei dati e le aree di lavoro Azure Synapse si sposti interamente sulla rete backbone Microsoft.

Controllo di accesso ai dati di Azure Synapse

Usare gli elenchi di controllo di accesso con il pass-through Di Microsoft Entra in Azure Synapse Analytics per gestire l'accesso ai file nel data lake.

Per i dati in cui è necessario limitare le colonne e le righe restituite, è consigliabile usare la sicurezza a livello di riga e di colonna per limitare l'accesso ai dati nelle tabelle del pool SQL dedicato o serverless di Azure Synapse. La sicurezza a livello di riga e la sicurezza a livello di colonna vengono implementate a livello di database e in aggiunta ai ruoli del database.

Ad esempio, la sicurezza a livello di riga garantisce che gli utenti in un'applicazione dati specifica (allineata all'origine) o un prodotto dati visualizzino solo i propri dati. Anche se la tabella contiene i dati dell'intera azienda.

È possibile combinare la sicurezza a livello di riga con la sicurezza a livello di colonna per limitare l'accesso alle colonne con dati sensibili. In questo modo, sia la sicurezza a livello di riga che la sicurezza a livello di colonna applicano la logica di restrizione dell'accesso a livello di database anziché a livello di applicazione. L'autorizzazione viene valutata ogni volta che si tenta di accedere ai dati da qualsiasi livello.

Nota

Il pool SQL serverless di Azure Synapse supporta la sicurezza a livello di colonna per le viste e non per le tabelle esterne. Nel caso di tabelle esterne, è possibile creare una vista logica sopra la tabella esterna e rispetto all'applicazione della sicurezza a livello di colonna. In caso di sicurezza a livello di riga, le visualizzazioni personalizzate possono essere usate come soluzione alternativa.

Per altre informazioni, vedere Controllo di accesso ai dati di Azure Synapse Analytics.

Controllo di accesso ai dati di Azure Synapse in Azure Data Lake

Quando si distribuisce un'area di lavoro Azure Synapse Analytics, è necessario un account Azure Data Lake Storage dalla sottoscrizione o manualmente usando l'URL dell'account di archiviazione. L'account di archiviazione specificato viene impostato come primario per l'area di lavoro Azure Synapse distribuita per archiviare i relativi dati. Azure Synapse archivia i dati in un contenitore che include tabelle Apache Spark e log applicazioni Spark in una cartella denominata /synapse/{workspaceName}. Include anche un contenitore per la gestione delle librerie che si sceglie di installare.

Suggerimento

È consigliabile usare un contenitore dedicato nel livello sviluppo o nel data lake tre account. Questo contenitore viene usato come risorsa di archiviazione primaria per archiviare i metadati Spark.

Per suggerimenti su come configurare l'accesso ai dati, vedere Controllo di accesso ai dati di Azure Synapse Analytics.

Passaggi successivi

Elenco di controllo per l'idoneità di Azure Purview per l'analisi su scala cloud