Analizzare i dati con un pool SQL serverless
In questa esercitazione si apprenderà come analizzare i dati con il pool SQL serverless.
Pool SQL serverless predefinito
I pool SQL serverless consentono di usare SQL senza dover riservare capacità. La fatturazione per un pool SQL serverless è basata sulla quantità di dati elaborati per eseguire la query e non sul numero di nodi usati per eseguire la query.
Ogni area di lavoro include un pool SQL serverless preconfigurato denominato Built-in.
Analizzare i dati dei taxi di Nyc con un pool SQL serverless
Nota
Assicurarsi di aver inserito i dati di esempio nell'account di archiviazione primario
In Synapse Studio passare all'hub Sviluppo
Creare un nuovo script SQL.
Incollare il codice seguente nello script.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Selezionare Run (Esegui).
L'esplorazione dei dati è solo uno scenario semplificato in cui è possibile comprendere le caratteristiche di base dei dati. Altre informazioni sull'esplorazione e l'analisi dei dati in questa esercitazione.
Creare un database di esplorazione dei dati
È possibile esplorare il contenuto dei file direttamente tramite master
il database. Per alcuni semplici scenari di esplorazione dei dati, non è necessario creare un database separato.
Tuttavia, man mano che si continua l'esplorazione dei dati, è possibile creare alcuni oggetti utilità, ad esempio:
- Origini dati esterne che rappresentano i riferimenti denominati per gli account di archiviazione.
- Credenziali con ambito database che consentono di specificare come eseguire l'autenticazione all'origine dati esterna.
- Utenti del database con le autorizzazioni per accedere ad alcune origini dati o oggetti di database.
- Viste, procedure e funzioni di utilità che è possibile usare nelle query.
Utilizzare il
master
database per creare un database separato per oggetti di database personalizzati. Non è possibile creare oggetti di database personalizzati nelmaster
database.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Importante
Usare regole di confronto con
_UTF8
suffisso per assicurarsi che il testo UTF-8 venga convertito correttamente inVARCHAR
colonne.Latin1_General_100_BIN2_UTF8
offre le migliori prestazioni nelle query che leggono i dati dai file Parquet e dai contenitori di Azure Cosmos DB. Per altre informazioni sulla modifica delle regole di confronto, vedere Tipi di regole di confronto supportati per Synapse SQL.Cambiare il contesto del database da
master
aDataExplorationDB
usando il comando seguente. È anche possibile usare il controllo dell'interfaccia utente per cambiare il database corrente:USE DataExplorationDB
Da
DataExplorationDB
creare oggetti utilità, ad esempio credenziali e origini dati.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Nota
È possibile creare un'origine dati esterna senza credenziali. Se non esiste una credenziale, l'identità del chiamante verrà usata per accedere all'origine dati esterna.
Facoltativamente, usare il database appena creato
DataExplorationDB
per creare un account di accesso per un utente inDataExplorationDB
che accederà ai dati esterni:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
Creare quindi un utente del database in
DataExplorationDB
per l'account di accesso precedente e concedere l'autorizzazioneADMINISTER DATABASE BULK OPERATIONS
.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Esplorare il contenuto del file usando il percorso relativo e l'origine dati:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Pubblicare le modifiche nell'area di lavoro.
Il database di esplorazione dei dati è solo un segnaposto semplice in cui è possibile archiviare gli oggetti dell'utilità. Il pool Synapse SQL consente di eseguire molte altre operazioni e creare un Data Warehouse logico, ovvero un livello relazionale basato sulle origini dati di Azure. Altre informazioni sulla creazione di un data warehouse logico in questa esercitazione.