Come inserire dati cronologici in Azure Esplora dati

Uno scenario comune durante l'onboarding in Azure Esplora dati consiste nell'inserire dati cronologici, talvolta chiamati backfill. Il processo comporta l'inserimento di dati da un sistema di archiviazione esistente in una tabella, ovvero una raccolta di extent.

È consigliabile inserire dati cronologici usando la proprietà di inserimento creationTime per impostare l'ora di creazione degli extent al momento della creazione dei dati. L'uso del tempo di creazione come criterio di partizionamento per l'inserimento può filtrare i dati in base ai criteri di memorizzazione e cache e rendere più efficienti i filtri temporali.

Per impostazione predefinita, il tempo di creazione per gli extent viene impostato sul momento in cui vengono inseriti i dati, che potrebbero non produrre il comportamento previsto. Si supponga, ad esempio, di avere una tabella con un periodo di cache di 30 giorni e un periodo di conservazione di due anni. Nel flusso normale, i dati inseriti durante la produzione vengono memorizzati nella cache per 30 giorni e quindi spostati nell'archiviazione ad accesso sporadico. Dopo due anni, in base al tempo di creazione, i dati meno recenti vengono rimossi un giorno alla volta. Tuttavia, se si inseriscono due anni di dati cronologici in cui, per impostazione predefinita, i dati vengono contrassegnati con l'ora di creazione quando i dati vengono inseriti. Questo potrebbe non produrre il risultato desiderato perché:

  • Tutti i dati vengono inseriti nella cache e rimangono nella cache per 30 giorni, usando più cache del previsto.
  • I dati meno recenti non vengono rimossi un giorno alla volta; pertanto i dati vengono conservati nel cluster per più tempo del necessario e, dopo due anni, vengono rimossi tutti contemporaneamente.
  • I dati, raggruppati in precedenza per data nel sistema di origine, possono ora essere raggruppati nello stesso modo, causando query inefficienti.

Diagramma che mostra il risultato previsto rispetto al risultato effettivo dell'inserimento di dati cronologici usando l'ora di creazione predefinita.

Questo articolo illustra come partizionare i dati cronologici:

  • Uso della proprietà di inserimento durante l'inserimento creationTime (scelta consigliata)

    Se possibile, inserire dati cronologici usando la creationTime proprietà di inserimento, che consente di impostare l'ora di creazione degli extent estraendoli dal file o dal percorso DEL BLOB. Se la struttura di cartelle non usa un modello di data di creazione, è consigliabile ristrutturare il file o il percorso del BLOB in modo da riflettere l'ora di creazione. Usando questo metodo, i dati vengono inseriti nella tabella con l'ora di creazione corretta e i periodi di memorizzazione e cache vengono applicati correttamente.

    Nota

    Per impostazione predefinita, gli extent vengono partizionati in base al momento della creazione (inserimento) e nella maggior parte dei casi non è necessario impostare un criterio di partizionamento dei dati.

  • Uso di un criterio di partizionamento dopo l'inserimento

    Se non è possibile usare la creationTime proprietà di inserimento, ad esempio se si inseriscono dati usando il connettore Azure Cosmos DB in cui non è possibile controllare il tempo di creazione o se non è possibile ristrutturare la struttura di cartelle, è possibile ripartizionare la tabella dopo l'inserimento per ottenere lo stesso effetto usando i criteri di partizionamento. Tuttavia, questo metodo potrebbe richiedere alcuni tentativi ed errori per ottimizzare le proprietà dei criteri ed è meno efficiente rispetto all'uso della creationTime proprietà di inserimento. Questo metodo è consigliato solo quando si usa la creationTime proprietà di inserimento non è possibile.

Prerequisiti

Inserire dati cronologici

È consigliabile partizionare i dati cronologici usando la creationTime proprietà di inserimento durante l'inserimento. Tuttavia, se non è possibile usare questo metodo, è possibile ripartizionare la tabella dopo l'inserimento usando un criterio di partizionamento.

LightIngest può essere utile per caricare i dati cronologici da un sistema di archiviazione esistente ad Azure Esplora dati. Sebbene sia possibile creare un comando personalizzato usando l'elenco di argomenti della riga di comando, questo articolo illustra come generare automaticamente questo comando tramite una procedura guidata di inserimento. Oltre a creare il comando, è possibile usare questo processo per creare una nuova tabella e creare il mapping dello schema. Questo strumento deduce il mapping dello schema dal set di dati.

Destination

  1. Nell'interfaccia utente Web di Azure Esplora dati selezionare Query dal menu a sinistra.

  2. Fare clic con il pulsante destro del mouse sul database in cui si desidera inserire i dati e quindi scegliere LightIngest.

    Screenshot dell'interfaccia utente Web di Azure Esplora dati che mostra il menu Altro database.

    Verrà visualizzata la finestra Dati inserimento con la scheda Destinazione selezionata. I campi Cluster e Database vengono popolati automaticamente.

  3. Selezionare una tabella di destinazione. Se si desidera inserire dati in una nuova tabella, selezionare Nuova tabella e quindi immettere un nome di tabella.

    Nota

    I nomi delle tabelle possono contenere fino a 1024 caratteri, inclusi spazi, alfanumerici, trattini e caratteri di sottolineatura. I caratteri speciali non sono supportati.

    Screenshot della scheda di destinazione che mostra il database e la tabella di destinazione.

  4. Selezionare Avanti: Origine.

Source

  1. In Seleziona origine selezionare Aggiungi URL o Seleziona contenitore.

    • Quando si aggiunge un URL, in Collegamento all'origine specificare la chiave dell'account o l'URL di firma di accesso condiviso a un contenitore. È possibile creare l'URL di firma di accesso condiviso manualmente o automaticamente.

    • Quando si seleziona un contenitore dall'account di archiviazione, selezionare la sottoscrizione di archiviazione, l'account di archiviazione e il contenitore dai menu a discesa.

      Screenshot della finestra di dialogo per la selezione del contenitore dalla sottoscrizione di archiviazione e dall'account.

    Nota

    L'inserimento supporta file di dimensione massima di 6 GB. È consigliabile inserire file di dimensione compresa tra 100 MB e 1 GB.

  2. Selezionare Impostazioni avanzate per definire impostazioni aggiuntive per il processo di inserimento usando LightIngest.

    Screenshot della selezione delle impostazioni avanzate per l'elaborazione dell'inserimento che coinvolge lo strumento LightIngest.

  3. Nel riquadro Configurazione avanzata definire le impostazioni LightIngest in base alla tabella seguente.

    Screenshot del riquadro di configurazione avanzata che mostra le impostazioni aggiuntive per l'elaborazione dell'inserimento che coinvolgono lo strumento LightIngest.

    Proprietà Descrizione
    Modello di ora di creazione Specificare per eseguire l'override della proprietà time di inserimento dell'extent creato con un criterio, ad esempio, per applicare una data in base alla struttura di cartelle del contenitore. Vedere anche Modello di ora di creazione.
    Modello di nome BLOB Specificare il modello usato per identificare i file da inserire. Inserire tutti i file che corrispondono al modello di nome DEL BLOB nel contenitore specificato. Supporta i caratteri jolly. È consigliabile racchiudere tra virgolette doppie.
    Tag Tag assegnato ai dati inseriti. Il tag può essere qualsiasi stringa.
    Limitare la quantità di file Specificare il numero di file che è possibile inserire. Inserisce i primi n file che corrispondono al modello di nome del BLOB, fino al numero specificato.
    Non attendere il completamento dell'inserimento Se impostato, accoda i BLOB per l'inserimento senza monitorare il processo di inserimento. Se non impostato, LightIngest continua a eseguire il polling dello stato di inserimento fino al completamento dell'inserimento.
    Visualizza solo gli elementi selezionati Elencare i file nel contenitore, ma non li inserisce.
  4. Selezionare Fine per tornare alla scheda Origine .

    1. Facoltativamente, selezionare Filtri file per filtrare i dati in modo da inserire solo file in un percorso di cartella specifico o con un'estensione di file specifica.

      Screenshot del filtro dei dati nella scheda origine della schermata Inserisci nuovi dati.

      Per impostazione predefinita, uno dei file nel contenitore viene selezionato in modo casuale e usato per generare lo schema per la tabella.

    2. Facoltativamente, in Schema che definisce il file è possibile specificare il file da usare.

  5. Selezionare Avanti: Schema per visualizzare e modificare la configurazione della colonna della tabella.

SCHEMA

La scheda Schema fornisce un'anteprima dei dati.

Per generare il comando LightIngest, selezionare Avanti: Avvia inserimento.

Facoltativamente:

  • Modificare il formato dati dedotto automaticamente selezionando il formato desiderato dal menu a discesa.
  • Modificare il nome mapping dedotto automaticamente. È possibile usare caratteri alfanumerici e trattini. Gli spazi, i caratteri speciali e i trattini non sono supportati.
  • Quando si usa una tabella esistente, è possibile mantenere lo schema di tabella corrente se lo schema della tabella corrisponde al formato selezionato.
  • Selezionare Visualizzatore comandi per visualizzare e copiare i comandi automatici generati dagli input.
  • Modificare le colonne. In Anteprima dati parziale selezionare i menu a discesa colonna per modificare vari aspetti della tabella.

Le modifiche che è possibile apportare in una tabella dipendono dai parametri seguenti:

  • Il tipo di tabella è nuovo o esistente
  • Il tipo di mapping è nuovo o esistente
Tipo di tabella. Tipo di mapping Modifiche disponibili
Nuova tabella Nuovo mapping Cambia tipo di dati, Rinomina colonna, Nuova colonna, Elimina colonna, Aggiorna colonna, Ordinamento crescente, Ordinamento decrescente
Tabella esistente Nuovo mapping Nuova colonna (per cui è poi possibile cambiare il tipo di dati, rinominare e aggiornare)
Aggiorna colonna, Ordinamento crescente, Ordinamento decrescente
Mapping esistente Ordinamento crescente, Ordinamento decrescente

Nota

Quando si aggiunge una nuova colonna o se ne aggiorna una esistente, è possibile cambiare le trasformazioni di mapping. Per altre informazioni, vedere Trasformazioni di mapping

Inserimento

  1. Dopo aver contrassegnato la tabella, il mapping e il comando LightIngest con i segni di spunta verdi, selezionare l'icona di copia nella parte superiore destra della casella di comando Generata per copiare il comando LightIngest generato.

    Screenshot della scheda Riepilogo con il comando generato. È possibile copiare il comando usando l'icona di copia sopra la casella di comando generata.

    Nota

    Se necessario, è possibile scaricare lo strumento LightIngest selezionando Download LightIngest.

  2. Per completare il processo di inserimento, è necessario eseguire LightIngest usando il comando copiato.