panoramica dell'inserimento dati Azure Synapse Esplora dati (anteprima)

L'inserimento dati è il processo usato per caricare i record di dati da una o più origini per importare dati in una tabella in Azure Synapse Esplora dati pool. Una volta inseriti, i dati diventano disponibili per le query.

Il servizio di gestione dei dati Azure Synapse Esplora dati, responsabile dell'inserimento dati, implementa il processo seguente:

  • Esegue il pull dei dati in batch o in streaming da un'origine esterna e legge le richieste da una coda di Azure in sospeso.
  • Il flusso di dati in batch trasmesso allo stesso database e alla stessa tabella viene ottimizzato per la velocità effettiva di inserimento.
  • I dati iniziali vengono convalidati e il formato viene convertito se necessario.
  • Ulteriori manipolazioni dei dati, tra cui schema corrispondente, organizzazione, indicizzazione, codifica e compressione dei dati.
  • I dati vengono salvati in modo permanente nell'archiviazione in base ai criteri di conservazione impostati.
  • I dati inseriti vengono sottoposti a commit nel motore, dove sono disponibili per la query.

Formati di dati, proprietà e autorizzazioni supportati

Invio in batch e inserimenti in streaming

  • L'inserimento in batch esegue l'invio in batch dei dati ed è ottimizzato per una velocità effettiva di inserimento elevata. Questo metodo è il tipo di inserimento preferito e quello più efficiente. I dati vengono suddivisi in batch in base alle proprietà di inserimento. I batch di dati di piccole dimensioni vengono uniti e ottimizzati per risultati rapidi delle query. I criteri IngestionBatching possono essere impostati su database o tabelle. Per impostazione predefinita, il valore massimo per l'inserimento in batch è 5 minuti, 1000 elementi o 1 GB di dimensioni totali. Il limite di dimensioni dei dati per un comando di inserimento batch è 4 GB.

  • L'inserimento in streaming è un inserimento dati continuo da un'origine del flusso. Consente una latenza quasi in tempo reale per set di dati di piccole dimensioni per tabella. I dati vengono inizialmente inseriti in rowstore e quindi spostati in extent columnstore.

Metodi e strumenti di inserimento

Azure Synapse Esplora dati supporta diversi metodi di inserimento, ognuno con scenari di destinazione specifici. Questi metodi includono strumenti di inserimento, connettori e plug-in per servizi diversi, pipeline gestite, inserimento a livello di codice tramite SDK e accesso diretto all'inserimento.

Inserimento tramite pipeline gestite

Per le organizzazioni che vogliono affidare la gestione (limitazione, ripetizione dei tentativi, monitoraggi, avvisi e altro) a un servizio esterno, l'uso di un connettore è probabilmente la soluzione più appropriata. L'inserimento in coda è adatto per grandi volumi di dati. Azure Synapse Esplora dati supporta le pipeline di Azure seguenti:

  • Pipeline di Synapse: un servizio di integrazione dei dati completamente gestito per carichi di lavoro analitici nelle pipeline di Synapse si connette con più di 90 origini supportate per fornire un trasferimento dati efficiente e resiliente. Le pipeline synapse preparano, trasformano e arricchiscono i dati per fornire informazioni dettagliate che possono essere monitorate in diversi tipi di modi. Questo servizio può essere usato come soluzione monouso, in una sequenza temporale periodica o essere attivato da eventi specifici.

Inserimento a livello di codice tramite SDK

Azure Synapse Esplora dati fornisce SDK che possono essere usati per l'inserimento di query e dati. L'inserimento a livello di codice è ottimizzato per diminuire i costi di inserimento, riducendo al minimo le transazioni di archiviazione durante e dopo il processo di inserimento.

Prima di iniziare, seguire questa procedura per ottenere gli endpoint del pool di Esplora dati per la configurazione dell'inserimento a livello di codice.

  1. In Synapse Studio, nel riquadro a sinistra selezionare Gestisci>Esplora dati pool.

  2. Selezionare il pool di Esplora dati da usare per visualizzarne i dettagli.

    Screenshot della schermata Esplora dati pool, che mostra l'elenco dei pool esistenti.

  3. Prendere nota degli endpoint di query e inserimento dati. Usare l'endpoint query come cluster durante la configurazione delle connessioni al pool di Esplora dati. Quando si configurano GLI SDK per l'inserimento dati, usare l'endpoint di inserimento dati.

    Screenshot del riquadro delle proprietà dei pool di Esplora dati, che mostra gli indirizzi URI query e inserimento dati.

SDK e progetti open source disponibili

Strumenti

  • Inserimento con un clic: consente di inserire rapidamente i dati creando e modificando le tabelle da un'ampia gamma di tipi di origine. L'inserimento con un clic suggerisce automaticamente tabelle e strutture di mapping basate sull'origine dati in Azure Synapse Esplora dati. L'inserimento con un clic può essere usato per l'inserimento una tantum o per definire l'inserimento continuo tramite Griglia di eventi nel contenitore in cui sono stati inseriti i dati.

Comandi di controllo dell'inserimento del linguaggio di query Kusto

Sono disponibili diversi metodi che consentono di inserire i dati direttamente nel motore tramite i comandi KQL (Kusto Query Language). Poiché questo metodo ignora i servizi di Gestione dati, è adatto solo a scopo di esplorazione e prototipazione. Non usare questo metodo in scenari di produzione o con volumi elevati.

  • Inserimento inline: al motore viene inviato un comando di controllo .ingest inline , con i dati da inserire come parte del testo del comando stesso. Questo metodo è destinato agli scenari di test improvvisati.

  • Inserimento da query: viene inviato al motore il comando di controllo .set, .append, .set-or-append o .set-or-replace, in cui i dati sono specificati in modo indiretto come i risultati di una query o di un comando.

  • Inserimento da risorsa di archiviazione (pull) : viene inviato al motore il comando di controllo .ingest into, con i dati archiviati in una risorsa di archiviazione esterna (ad esempio Archiviazione BLOB di Azure) accessibile dal motore e indicata dal comando.

Per un esempio dell'uso dei comandi di controllo inserimento, vedere Analizzare con Esplora dati.

Processo di inserimento

Dopo aver scelto il metodo di inserimento più adatto alle proprie esigenze, eseguire queste operazioni:

  1. Impostare i criteri di conservazione

    I dati inseriti in una tabella in Azure Synapse Esplora dati sono soggetti ai criteri di conservazione effettivi della tabella. A meno che non siano impostati su una tabella in modo esplicito, i criteri di conservazione effettivi sono derivati dai criteri di conservazione del database. La conservazione dei dati attivi è una funzione delle dimensioni del cluster e dei criteri di conservazione. L'inserimento di una quantità di dati superiore allo spazio disponibile forza i primi dati in ingresso nella risorsa di conservazione di dati inattivi.

    Assicurarsi che i criteri di conservazione del database siano appropriati per le specifiche esigenze. In caso contrario, eseguirne l'override in modo esplicito a livello di tabella Per altre informazioni, vedere Criteri di conservazione.

  2. Creare una tabella

    Prima di inserire i dati è necessario creare una tabella. Usare una delle seguenti opzioni:

    Nota

    Se un record è incompleto o un campo non può essere analizzato come tipo di dati necessario, le colonne della tabella corrispondenti verranno popolate con valori Null.

  3. Creare il mapping dello schema

    Il mapping dello schema consente di associare i campi dati di origine alle colonne della tabella di destinazione. Il mapping consente di inserire i dati di origini diverse nella stessa tabella, in base agli attributi definiti. Sono supportati diversi tipi di mapping, sia orientati alle righe (CSV, JSON e AVRO) che orientati alle colonne (Parquet). Nella maggior parte dei metodi i mapping possono essere creati anticipatamente nella tabella ed è possibile farvi riferimento nel parametro del comando di inserimento.

  4. Impostare i criteri di aggiornamento (facoltativo)

    Alcuni mapping del formato dati (Parquet, JSON e Avro) supportano semplici e utili trasformazioni in fase di inserimento. Negli scenari che richiedono un'elaborazione più complessa al momento dell'inserimento usare i criteri di aggiornamento, che supportano l'elaborazione leggera usando i comandi del linguaggio di query Kusto. I criteri di aggiornamento eseguono automaticamente le operazioni di estrazione e trasformazione sui dati inseriti nella tabella originale e inseriscono i dati risultanti in una o più tabelle di destinazione. Impostare i criteri di aggiornamento.

Passaggi successivi