Panoramica dell'inserimento dati in Esplora dati di Azure
L'inserimento dei dati comporta il caricamento dei dati in una tabella nel cluster. Azure Esplora dati garantisce la validità dei dati, converte i formati in base alle esigenze ed esegue manipolazioni come la corrispondenza dello schema, l'organizzazione, l'indicizzazione, la codifica e la compressione. Una volta inseriti, i dati sono disponibili per la query.
Azure Esplora dati offre l'inserimento una sola volta o la creazione di una pipeline di inserimento continuo, usando l'inserimento in streaming o in coda. Per determinare quale è il modo giusto per l'utente, vedere Inserimento dati one-time e Inserimento continuo dei dati.
Nota
I dati vengono mantenuti nell'archiviazione in base ai criteri di conservazione impostati.
Inserimento di dati una sola volta
L'inserimento una volta è utile per il trasferimento di dati cronologici, l'inserimento di dati mancanti e le fasi iniziali di prototipazione e analisi dei dati. Questo approccio facilita l'integrazione rapida dei dati senza la necessità di un impegno continuo della pipeline.
Esistono diversi modi per eseguire l'inserimento di dati one-time. Usare l'albero delle decisioni seguente per determinare l'opzione più adatta per il caso d'uso:
Per altre informazioni, vedere la documentazione pertinente:
Callout | Documentazione pertinente |
---|---|
Per l'inserimento, vedere i formati di dati supportati da Azure Esplora dati. | |
Vedere i formati di file supportati per Azure Data Factory pipeline. | |
Per importare dati da un sistema di archiviazione esistente, vedere Come inserire dati cronologici in Azure Esplora dati. | |
Nell'interfaccia utente Web di Azure Esplora dati è possibile ottenere dati da un file locale, Amazon S3 o Archiviazione di Azure. | |
Per l'integrazione con Azure Data Factory, vedere Copiare i dati in Azure Esplora dati usando Azure Data Factory. | |
Le librerie client Kusto sono disponibili per C#, Python, Java, JavaScript, TypeScript e Go. È possibile scrivere codice per modificare i dati e quindi usare la libreria Kusto Ingest per inserire i dati nella tabella di Esplora dati di Azure. I dati devono trovarsi in uno dei formati supportati prima dell'inserimento. |
Inserimento dati continuo
L'inserimento continuo si distingue in situazioni in cui si richiedono informazioni immediate dai dati live. Ad esempio, l'inserimento continuo è utile per i sistemi di monitoraggio, i dati di log e gli eventi e l'analisi in tempo reale.
L'inserimento continuo dei dati comporta la configurazione di una pipeline di inserimento con streaming o inserimento in coda:
Inserimento di streaming: questo metodo garantisce la latenza quasi in tempo reale per piccoli set di dati per tabella. I dati vengono inseriti in micro batch da un'origine di streaming, inizialmente inseriti nell'archivio righe e quindi trasferiti negli extent dell'archivio colonne. Per altre informazioni, vedere Configurare l'inserimento di streaming.
Inserimento in coda: questo metodo è ottimizzato per la velocità effettiva di inserimento elevata. I dati vengono in batch in base alle proprietà di inserimento, con batch di piccole dimensioni, quindi uniti e ottimizzati per risultati di query veloci. Per impostazione predefinita, i valori massimi in coda sono 5 minuti, 1000 elementi o una dimensione totale di 1 GB. Il limite delle dimensioni dei dati per un comando di inserimento in coda è di 6 GB. Questo metodo usa meccanismi di ripetizione dei tentativi per attenuare gli errori temporanei e segue la semantica di messaggistica "almeno una volta" per assicurarsi che non vengano persi messaggi nel processo. Per altre informazioni sull'inserimento in coda, vedere Criteri di inserimento in batch.
Nota
Per la maggior parte degli scenari, è consigliabile usare l'inserimento in coda perché è l'opzione più efficiente.
Esistono diversi modi per configurare l'inserimento continuo dei dati. Usare l'albero delle decisioni seguente per determinare l'opzione più adatta per il caso d'uso:
Per altre informazioni, vedere la documentazione pertinente:
Callout | Documentazione pertinente |
---|---|
Per un elenco di connettori, vedere Panoramica dei connettori. | |
Creare una connessione dati di Hub eventi. L'integrazione con Hub eventi offre servizi quali limitazione, tentativi, monitoraggio e avvisi. | |
Inserire dati da Apache Kafka, una piattaforma di streaming distribuita per la creazione di pipeline di dati in tempo reale. | |
Creare una connessione dati hub IoT. L'integrazione con hub IoT offre servizi come limitazione, tentativi, monitoraggio e avvisi. | |
Creare una connessione dati griglia di eventi. L'integrazione con Griglia di eventi offre servizi quali limitazione, tentativi, monitoraggio e avvisi. | |
Vedere le linee guida per il connettore pertinente, ad esempio Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk e altro ancora. Per altre informazioni, vedere Panoramica dei connettori. | |
Le librerie client Kusto sono disponibili per C#, Python, Java, JavaScript, TypeScript e Go. È possibile scrivere codice per modificare i dati e quindi usare la libreria Kusto Ingest per inserire i dati nella tabella di Esplora dati di Azure. I dati devono trovarsi in uno dei formati supportati prima dell'inserimento. |
Nota
L'inserimento in streaming non è supportato per tutti i metodi di inserimento. Per informazioni dettagliate sul supporto, controllare la documentazione relativa al metodo di inserimento specifico.
Inserimento diretto con comandi di gestione
Azure Esplora dati offre i comandi di gestione dell'inserimento seguenti, che inseriscono i dati direttamente nel cluster anziché usare il servizio di gestione dei dati. Devono essere usati solo per l'esplorazione e la prototipazione e non negli scenari di produzione o di volumi elevati.
- Inserimento inline: il comando ingest inline contiene i dati da inserire come parte del testo del comando stesso. Questo metodo è destinato agli scenari di test improvvisati.
- Inserimento da query: i comandi .set, .append, .set-or-append o .set-or-replace indirettamente specificano i dati da inserire come risultati di una query o di un comando.
- Inserimento dall'archiviazione: l'inserimento con estensione nel comando ottiene i dati da inserire dall'archiviazione esterna, ad esempio Archiviazione BLOB di Azure, accessibili dal cluster e puntati dal comando.
Confrontare i metodi di inserimento
La tabella seguente confronta i metodi di inserimento principali:
Nome dell'inserimento | Tipo di dati | Dimensione massima dei file | Streaming, accodato, diretto | Scenari più comuni | Considerazioni |
---|---|---|---|---|---|
Connettore Apache Spark | Ogni formato supportato dall'ambiente Spark | Nessuna limitazione | Queued | Pipeline esistente, pre-elaborazione in Spark prima dell'inserimento, modo rapido per creare una pipeline di streaming sicura (Spark) dalle varie origini supportate dall'ambiente Spark. | Valutare il costo del cluster Spark. Per la scrittura batch, confrontare con La connessione dati di Azure Esplora dati per Griglia di eventi. Per lo streaming Spark, confrontare con la connessione dati per l'hub eventi. |
Azure Data Factory | Formati di dati supportati | Senza limiti. Eredita le restrizioni di Azure Data Factory. | Accodato o per trigger di Azure Data Factory | Supporta formati non supportati, ad esempio Excel e XML, e possono copiare file di grandi dimensioni da oltre 90 origini, da on perm a cloud | Questo metodo richiede relativamente più tempo fino a quando i dati non vengono inseriti. ADF carica tutti i dati in memoria e quindi inizia l'inserimento. |
Griglia di eventi | Formati di dati supportati | 1 GB decompresso | Queued | Inserimento continuo dall'archiviazione di Azure, dati esterni nell'archiviazione di Azure | L'inserimento può essere attivato da azioni di ridenominazione o creazione di BLOB |
Hub eventi | Formati di dati supportati | N/D | In coda, streaming | Messaggi, eventi | |
Ottenere l'esperienza dei dati | *SV, JSON | 1 GB decompresso | Inserimento in coda o diretto | Uno-off, creare uno schema di tabella, definizione dell'inserimento continuo con Griglia di eventi, inserimento bulk con contenitore (fino a 5.000 BLOB; nessun limite quando si usa l'inserimento cronologico) | |
Hub IoT | Formati di dati supportati | N/D | In coda, streaming | Messaggi, eventi e proprietà IoT | |
Connettore Kafka | Avro, ApacheAvro, JSON, CSV, Parquet e ORC | Senza limiti. Eredita le restrizioni Java. | In coda, streaming | Pipeline esistente, elevato consumo di volumi dall'origine. | Le preferenze possono essere determinate dall'uso esistente di più producer o servizi consumer o dal livello desiderato di gestione dei servizi. |
Librerie client Kusto | Formati di dati supportati | 1 GB decompresso | Accodato, streaming, diretto | Scrivere il codice secondo le esigenze dell'organizzazione | L'inserimento a livello di codice è ottimizzato per ridurre i costi di inserimento riducendo al minimo le transazioni di archiviazione durante e seguendo il processo di inserimento. |
LightIngest | Formati di dati supportati | 1 GB decompresso | Inserimento in coda o diretto | Migrazione dei dati, dati cronologici con timestamp di inserimento modificati, inserimento bulk | Distinzione tra maiuscole e minuscole e distinzione tra spazi |
App per la logica | Formati di dati supportati | 1 GB decompresso | Queued | Usato per automatizzare le pipeline | |
Logstash | JSON | Senza limiti. Eredita le restrizioni Java. | Queued | La pipeline esistente, usare la natura matura open source logstash per un utilizzo elevato del volume dagli input. | Le preferenze possono essere determinate dall'uso esistente di più producer o servizi consumer o dal livello desiderato di gestione dei servizi. |
Power Automate | Formati di dati supportati | 1 GB decompresso | Queued | Comandi di inserimento come parte del flusso. Usato per automatizzare le pipeline. |
Per informazioni su altri connettori, vedere Panoramica dei connettori.
Autorizzazioni
L'elenco seguente descrive le autorizzazioni necessarie per vari scenari di inserimento:
- Per creare una nuova tabella sono necessarie almeno le autorizzazioni utente del database.
- Per inserire i dati in una tabella esistente, senza modificarne lo schema, sono necessarie almeno le autorizzazioni Ingestor del database.
- Per modificare lo schema di una tabella esistente, sono necessarie almeno autorizzazioni di Amministrazione tabella o database Amministrazione.
Per altre informazioni, vedere Controllo degli accessi in base al ruolo Kusto.
Processo di inserimento
I passaggi seguenti descrivono il processo di inserimento generale:
Impostare i criteri di invio in batch (facoltativo): i dati vengono inseriti in batch in base ai criteri di invio in batch di inserimento. Per indicazioni, vedere Ottimizzare la velocità effettiva.
Impostare i criteri di conservazione (facoltativi): se i criteri di conservazione del database non sono adatti alle proprie esigenze, eseguirne l'override a livello di tabella. Per altre informazioni, vedere Criteri di conservazione.
Creare una tabella: se si usa l'esperienza Recupera dati, è possibile creare una tabella come parte del flusso di inserimento. In caso contrario, creare una tabella prima dell'inserimento nell'interfaccia utente Web di Azure Esplora dati o con il comando .create table.
Creare un mapping dello schema: i mapping dello schema consentono di associare i campi dati di origine alle colonne della tabella di destinazione. Sono supportati diversi tipi di mapping, inclusi formati orientati alle righe, ad esempio CSV, JSON e AVRO, e formati orientati alle colonne come Parquet. Nella maggior parte dei metodi, i mapping possono anche essere precreati nella tabella.
Impostare i criteri di aggiornamento (facoltativo): alcuni formati di dati, ad esempio Parquet, JSON e Avro, consentono trasformazioni semplici in fase di inserimento. Per un'elaborazione più complessa durante l'inserimento, usare i criteri di aggiornamento. Questo criterio esegue automaticamente le estrazioni e le trasformazioni sui dati inseriti all'interno della tabella originale, quindi inserisce i dati modificati in una o più tabelle di destinazione.
Inserire dati: usare lo strumento di inserimento preferito, il connettore o il metodo per inserire i dati.
Contenuti correlati
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per