Eseguire query sui file JSON usando il pool SQL serverless in Azure Synapse Analytics

Tip

Microsoft Fabric Data Warehouse è un data warehouse relazionale su scala aziendale su una base data lake, con un'architettura futura, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con il data warehousing, iniziare con Fabric Data Warehouse. I carichi di lavoro esistenti del pool SQL dedicated possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

In questo articolo si apprenderà come scrivere una query usando il pool SQL serverless in Azure Synapse Analytics. L'obiettivo della query è leggere i file JSON usando OPENROWSET.

File JSON standard in cui più documenti JSON vengono archiviati come matrice JSON.
File JSON delimitati da righe, in cui i documenti JSON sono separati con un carattere di nuova riga. Le estensioni comuni per questi tipi di file sono jsonl, ldjsone ndjson.

Leggere documenti JSON

Il modo più semplice per visualizzare il contenuto del file JSON consiste nel fornire l'URL del OPENROWSET file alla funzione, specificare csv FORMATe impostare i valori 0x0b per fieldterminator e fieldquote. Se è necessario leggere file JSON delimitati da righe, è sufficiente. Se si dispone di un file JSON classico, è necessario impostare i valori 0x0b per rowterminator. OPENROWSET la funzione analizzerà JSON e restituirà ogni documento nel formato seguente:

doc
{"date_rep":"2020-07-24","day":24,"month":7,"year":2020,"cases":3,"deaths":0,"geo_id":"AF"}
{"date_rep":"2020-07-25","day":25,"month":7,"year":2020,"cases":7,"deaths":0,"geo_id":"AF"}
{"date_rep":"2020-07-26","day":26,"month":7,"year":2020,"cases":4,"deaths":0,"geo_id":"AF"}
{"date_rep":"2020-07-27","day":27,"month":7,"year":2020,"cases":8,"deaths":0,"geo_id":"AF"}

Se il file è disponibile pubblicamente o se l'identità Microsoft Entra può accedere a questo file, dovrebbe essere visualizzato il contenuto del file usando la query come quella illustrata negli esempi seguenti.

Leggere i file JSON

La query di esempio seguente legge i file JSON e JSON delimitati da riga e restituisce ogni documento come riga separata.

select top 10 *
from openrowset(
        bulk 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b'
    ) with (doc nvarchar(max)) as rows
go
select top 10 *
from openrowset(
        bulk 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b',
        rowterminator = '0x0b' --> You need to override rowterminator to read classic JSON
    ) with (doc nvarchar(max)) as rows

Il documento JSON nella query di esempio precedente include una matrice di oggetti. La query restituisce ogni oggetto come riga separata nel set di risultati. Assicurarsi di poter accedere a questo file. Se il file è protetto con chiave SAS o identità personalizzata, è necessario configurare le credenziali a livello di server per l'accesso SQL.

Utilizzo dell'origine dati

Nell'esempio precedente viene utilizzato il percorso completo del file. In alternativa, è possibile creare un'origine dati esterna con il percorso che punta alla cartella radice dell'archiviazione e usare tale origine dati e il percorso relativo del file nella OPENROWSET funzione:

create external data source covid
with ( location = 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases' );
go
select top 10 *
from openrowset(
        bulk 'latest/ecdc_cases.jsonl',
        data_source = 'covid',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b'
    ) with (doc nvarchar(max)) as rows
go
select top 10 *
from openrowset(
        bulk 'latest/ecdc_cases.json',
        data_source = 'covid',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b',
        rowterminator = '0x0b' --> You need to override rowterminator to read classic JSON
    ) with (doc nvarchar(max)) as rows

Se un'origine dati è protetta con una chiave di firma di accesso condiviso o un'identità personalizzata, è possibile configurare l'origine dati con credenziali con ambito database.

Nelle sezioni seguenti è possibile vedere come eseguire query su vari tipi di file JSON.

Analizzare documenti JSON

Le query negli esempi precedenti restituiscono ogni documento JSON come singola stringa in una riga separata del set di risultati. È possibile usare funzioni JSON_VALUE e OPENJSON per analizzare i valori nei documenti JSON e restituirli come valori relazionali, come illustrato nell'esempio seguente:

date_rep	cases	geo_id
2020-07-24	3	AF
2020-07-25	7	AF
2020-07-26	4	AF
2020-07-27	8	AF

Documento JSON di esempio

Gli esempi di query leggono i file JSON contenenti documenti con la struttura seguente:

{
    "date_rep":"2020-07-24",
    "day":24,"month":7,"year":2020,
    "cases":13,"deaths":0,
    "countries_and_territories":"Afghanistan",
    "geo_id":"AF",
    "country_territory_code":"AFG",
    "continent_exp":"Asia",
    "load_date":"2020-07-25 00:05:14",
    "iso_country":"AF"
}

Annotazioni

Se questi documenti vengono archiviati come JSON delimitati da righe, è necessario impostare FIELDTERMINATOR e FIELDQUOTE su 0x0b. Se hai il formato JSON standard, è necessario impostare ROWTERMINATOR su 0x0b.

Eseguire query su file JSON usando JSON_VALUE

La query seguente illustra come usare JSON_VALUE per recuperare i valori scalari (date_rep, countries_and_territories, cases) da un documento JSON:

select
    JSON_VALUE(doc, '$.date_rep') AS date_reported,
    JSON_VALUE(doc, '$.countries_and_territories') AS country,
    CAST(JSON_VALUE(doc, '$.deaths') AS INT) as fatal,
    JSON_VALUE(doc, '$.cases') as cases,
    doc
from openrowset(
        bulk 'latest/ecdc_cases.jsonl',
        data_source = 'covid',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b'
    ) with (doc nvarchar(max)) as rows
order by JSON_VALUE(doc, '$.geo_id') desc

Dopo aver estratto le proprietà JSON da un documento JSON, è possibile definire alias di colonna ed eventualmente eseguire il cast del valore testuale in un determinato tipo.

Eseguire query nei file JSON con OPENJSON

La query seguente usa OPENJSON. Recupererà le statistiche COVID riportate in Serbia.

select
    *
from openrowset(
        bulk 'latest/ecdc_cases.jsonl',
        data_source = 'covid',
        format = 'csv',
        fieldterminator ='0x0b',
        fieldquote = '0x0b'
    ) with (doc nvarchar(max)) as rows
    cross apply openjson (doc)
        with (  date_rep datetime2,
                cases int,
                fatal int '$.deaths',
                country varchar(100) '$.countries_and_territories')
where country = 'Serbia'
order by country, date_rep desc;

I risultati sono funzionalmente uguali ai risultati restituiti usando la JSON_VALUE funzione . In alcuni casi, OPENJSON potrebbe avere un vantaggio rispetto JSON_VALUEa :

WITH Nella clausola è possibile impostare in modo esplicito gli alias di colonna e i tipi per ogni proprietà. Non è necessario inserire la CAST funzione in ogni colonna nell'elenco SELECT .
OPENJSON potrebbe essere più veloce se si restituisce un numero elevato di proprietà. Se si restituiscono solo 1-2 proprietà, la OPENJSON funzione potrebbe essere sovraccarica.
È necessario usare la OPENJSON funzione se è necessario analizzare la matrice da ogni documento e aggiungerla alla riga padre.

Passaggi successivi

Gli articoli successivi di questa serie illustrano come:

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-07