Come inserire dati cronologici in Azure Esplora dati
Uno scenario comune durante l'onboarding in Azure Esplora dati consiste nell'inserire dati cronologici, talvolta chiamati backfill. Il processo comporta l'inserimento di dati da un sistema di archiviazione esistente in una tabella, ovvero una raccolta di extent.
È consigliabile inserire dati cronologici usando la proprietà di inserimento creationTime per impostare l'ora di creazione degli extent al momento della creazione dei dati. L'uso del tempo di creazione come criterio di partizionamento per l'inserimento può filtrare i dati in base ai criteri di memorizzazione e cache e rendere più efficienti i filtri temporali.
Per impostazione predefinita, il tempo di creazione per gli extent viene impostato sul momento in cui vengono inseriti i dati, che potrebbero non produrre il comportamento previsto. Si supponga, ad esempio, di avere una tabella con un periodo di cache di 30 giorni e un periodo di conservazione di due anni. Nel flusso normale, i dati inseriti durante la produzione vengono memorizzati nella cache per 30 giorni e quindi spostati nell'archiviazione ad accesso sporadico. Dopo due anni, in base al tempo di creazione, i dati meno recenti vengono rimossi un giorno alla volta. Tuttavia, se si inseriscono due anni di dati cronologici in cui, per impostazione predefinita, i dati vengono contrassegnati con l'ora di creazione quando i dati vengono inseriti. Questo potrebbe non produrre il risultato desiderato perché:
- Tutti i dati vengono inseriti nella cache e rimangono nella cache per 30 giorni, usando più cache del previsto.
- I dati meno recenti non vengono rimossi un giorno alla volta; pertanto i dati vengono conservati nel cluster per più tempo del necessario e, dopo due anni, vengono rimossi tutti contemporaneamente.
- I dati, raggruppati in precedenza per data nel sistema di origine, possono ora essere raggruppati nello stesso modo, causando query inefficienti.
Questo articolo illustra come partizionare i dati cronologici:
Uso della proprietà di inserimento durante l'inserimento
creationTime
(scelta consigliata)Se possibile, inserire dati cronologici usando la
creationTime
proprietà di inserimento, che consente di impostare l'ora di creazione degli extent estraendoli dal file o dal percorso DEL BLOB. Se la struttura di cartelle non usa un modello di data di creazione, è consigliabile ristrutturare il file o il percorso del BLOB in modo da riflettere l'ora di creazione. Usando questo metodo, i dati vengono inseriti nella tabella con l'ora di creazione corretta e i periodi di memorizzazione e cache vengono applicati correttamente.Nota
Per impostazione predefinita, gli extent vengono partizionati in base al momento della creazione (inserimento) e nella maggior parte dei casi non è necessario impostare un criterio di partizionamento dei dati.
Uso di un criterio di partizionamento dopo l'inserimento
Se non è possibile usare la
creationTime
proprietà di inserimento, ad esempio se si inseriscono dati usando il connettore Azure Cosmos DB in cui non è possibile controllare il tempo di creazione o se non è possibile ristrutturare la struttura di cartelle, è possibile ripartizionare la tabella dopo l'inserimento per ottenere lo stesso effetto usando i criteri di partizionamento. Tuttavia, questo metodo potrebbe richiedere alcuni tentativi ed errori per ottimizzare le proprietà dei criteri ed è meno efficiente rispetto all'uso dellacreationTime
proprietà di inserimento. Questo metodo è consigliato solo quando si usa lacreationTime
proprietà di inserimento non è possibile.
Prerequisiti
- Un account Microsoft o un'identità utente di Microsoft Entra. Non è necessaria una sottoscrizione di Azure.
- Un cluster e un database di Esplora dati di Azure. Creare un cluster e un database.
- Un account di archiviazione.
- Per il metodo consigliato di usare la proprietà di inserimento durante l'inserimento
creationTime
, installare LightIngest.
Inserire dati cronologici
È consigliabile partizionare i dati cronologici usando la creationTime
proprietà di inserimento durante l'inserimento. Tuttavia, se non è possibile usare questo metodo, è possibile ripartizionare la tabella dopo l'inserimento usando un criterio di partizionamento.
LightIngest può essere utile per caricare i dati cronologici da un sistema di archiviazione esistente ad Azure Esplora dati. Sebbene sia possibile creare un comando personalizzato usando l'elenco di argomenti della riga di comando, questo articolo illustra come generare automaticamente questo comando tramite una procedura guidata di inserimento. Oltre a creare il comando, è possibile usare questo processo per creare una nuova tabella e creare il mapping dello schema. Questo strumento deduce il mapping dello schema dal set di dati.
Destination
Nell'interfaccia utente Web di Azure Esplora dati selezionare Query dal menu a sinistra.
Fare clic con il pulsante destro del mouse sul database in cui si desidera inserire i dati e quindi scegliere LightIngest.
Verrà visualizzata la finestra Dati inserimento con la scheda Destinazione selezionata. I campi Cluster e Database vengono popolati automaticamente.
Selezionare una tabella di destinazione. Se si desidera inserire dati in una nuova tabella, selezionare Nuova tabella e quindi immettere un nome di tabella.
Nota
I nomi delle tabelle possono contenere fino a 1024 caratteri, inclusi spazi, alfanumerici, trattini e caratteri di sottolineatura. I caratteri speciali non sono supportati.
Selezionare Avanti: Origine.
Source
In Seleziona origine selezionare Aggiungi URL o Seleziona contenitore.
Quando si aggiunge un URL, in Collegamento all'origine specificare la chiave dell'account o l'URL di firma di accesso condiviso a un contenitore. È possibile creare l'URL di firma di accesso condiviso manualmente o automaticamente.
Quando si seleziona un contenitore dall'account di archiviazione, selezionare la sottoscrizione di archiviazione, l'account di archiviazione e il contenitore dai menu a discesa.
Nota
L'inserimento supporta file di dimensione massima di 6 GB. È consigliabile inserire file di dimensione compresa tra 100 MB e 1 GB.
Selezionare Impostazioni avanzate per definire impostazioni aggiuntive per il processo di inserimento usando LightIngest.
Nel riquadro Configurazione avanzata definire le impostazioni LightIngest in base alla tabella seguente.
Proprietà Descrizione Modello di ora di creazione Specificare per eseguire l'override della proprietà time di inserimento dell'extent creato con un criterio, ad esempio, per applicare una data in base alla struttura di cartelle del contenitore. Vedere anche Modello di ora di creazione. Modello di nome BLOB Specificare il modello usato per identificare i file da inserire. Inserire tutti i file che corrispondono al modello di nome DEL BLOB nel contenitore specificato. Supporta i caratteri jolly. È consigliabile racchiudere tra virgolette doppie. Tag Tag assegnato ai dati inseriti. Il tag può essere qualsiasi stringa. Limitare la quantità di file Specificare il numero di file che è possibile inserire. Inserisce i primi n
file che corrispondono al modello di nome del BLOB, fino al numero specificato.Non attendere il completamento dell'inserimento Se impostato, accoda i BLOB per l'inserimento senza monitorare il processo di inserimento. Se non impostato, LightIngest continua a eseguire il polling dello stato di inserimento fino al completamento dell'inserimento. Visualizza solo gli elementi selezionati Elencare i file nel contenitore, ma non li inserisce. Selezionare Fine per tornare alla scheda Origine .
Facoltativamente, selezionare Filtri file per filtrare i dati in modo da inserire solo file in un percorso di cartella specifico o con un'estensione di file specifica.
Per impostazione predefinita, uno dei file nel contenitore viene selezionato in modo casuale e usato per generare lo schema per la tabella.
Facoltativamente, in Schema che definisce il file è possibile specificare il file da usare.
Selezionare Avanti: Schema per visualizzare e modificare la configurazione della colonna della tabella.
SCHEMA
La scheda Schema fornisce un'anteprima dei dati.
Per generare il comando LightIngest, selezionare Avanti: Avvia inserimento.
Facoltativamente:
- Modificare il formato dati dedotto automaticamente selezionando il formato desiderato dal menu a discesa.
- Modificare il nome mapping dedotto automaticamente. È possibile usare caratteri alfanumerici e trattini. Gli spazi, i caratteri speciali e i trattini non sono supportati.
- Quando si usa una tabella esistente, è possibile mantenere lo schema di tabella corrente se lo schema della tabella corrisponde al formato selezionato.
- Selezionare Visualizzatore comandi per visualizzare e copiare i comandi automatici generati dagli input.
- Modificare le colonne. In Anteprima dati parziale selezionare i menu a discesa colonna per modificare vari aspetti della tabella.
Le modifiche che è possibile apportare in una tabella dipendono dai parametri seguenti:
- Il tipo di tabella è nuovo o esistente
- Il tipo di mapping è nuovo o esistente
Tipo di tabella. | Tipo di mapping | Modifiche disponibili |
---|---|---|
Nuova tabella | Nuovo mapping | Cambia tipo di dati, Rinomina colonna, Nuova colonna, Elimina colonna, Aggiorna colonna, Ordinamento crescente, Ordinamento decrescente |
Tabella esistente | Nuovo mapping | Nuova colonna (per cui è poi possibile cambiare il tipo di dati, rinominare e aggiornare) Aggiorna colonna, Ordinamento crescente, Ordinamento decrescente |
Mapping esistente | Ordinamento crescente, Ordinamento decrescente |
Nota
Quando si aggiunge una nuova colonna o se ne aggiorna una esistente, è possibile cambiare le trasformazioni di mapping. Per altre informazioni, vedere Trasformazioni di mapping
Inserimento
Dopo aver contrassegnato la tabella, il mapping e il comando LightIngest con i segni di spunta verdi, selezionare l'icona di copia nella parte superiore destra della casella di comando Generata per copiare il comando LightIngest generato.
Nota
Se necessario, è possibile scaricare lo strumento LightIngest selezionando Download LightIngest.
Per completare il processo di inserimento, è necessario eseguire LightIngest usando il comando copiato.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per