Share via


Creare o modificare una tabella usando il caricamento di file

La pagina Crea o modifica una tabella usando il caricamento di file consente di caricare file CSV, TSV o JSON, Avro, Parquet o di testo per creare o sovrascrivere una tabella Delta Lake gestita.

È possibile creare tabelle Delta gestite in Unity Catalog o nel metastore Hive.

Nota

È anche possibile caricare file dall'archiviazione cloud usando l'interfaccia utente aggiungi dati o COPY INTO.

Importante

  • È necessario avere accesso a una risorsa di calcolo in esecuzione e autorizzazioni per creare tabelle in uno schema di destinazione.
  • Gli amministratori dell'area di lavoro possono disabilitare la pagina Crea o modifica una tabella usando il caricamento di file.

È possibile usare l'interfaccia utente per creare una tabella Delta importando piccoli file CSV, TSV, JSON, Avro, Parquet o di testo dal computer locale.

  • La pagina Crea o modifica una tabella usando il caricamento di file supporta il caricamento di un massimo di 10 file alla volta.
  • Le dimensioni totali dei file caricati devono essere minori di 2 gigabyte.
  • Il file deve essere un file CSV, TSV, JSON, Avro, Parquet o text e avere l'estensione ".csv", ".tsv" (o ".tab"), ".json", ".avro", ".parquet" o ".txt".
  • I file compressi, zip ad esempio e , tar non sono supportati.

Caricare il file

  1. Fare clic su Nuova iconaNuovo > aggiungi dati.
  2. Fare clic su Crea o modifica una tabella.
  3. Fare clic sul pulsante del browser file o trascinare i file direttamente nell'area di rilascio.

Nota

I file importati vengono caricati in un percorso interno sicuro all'interno dell'account, che viene sottoposto a Garbage Collection ogni giorno.

Visualizzare in anteprima, configurare e creare una tabella

È possibile caricare i dati nell'area di gestione temporanea senza connettersi alle risorse di calcolo, ma è necessario selezionare una risorsa di calcolo attiva per visualizzare in anteprima e configurare la tabella.

È possibile visualizzare in anteprima 50 righe dei dati quando si configurano le opzioni per la tabella caricata. Fare clic sui pulsanti griglia o elenco sotto il nome del file per cambiare la presentazione dei dati.

Azure Databricks archivia i file di dati per le tabelle gestite nei percorsi configurati per lo schema contenitore. Sono necessarie autorizzazioni appropriate per creare una tabella in uno schema.

Selezionare lo schema desiderato in cui creare una tabella eseguendo le operazioni seguenti:

  1. (Solo per le aree di lavoro abilitate per Il catalogo unity) È possibile selezionare un catalogo o l'oggetto legacy hive_metastore.
  2. Selezionare uno schema.
  3. (Facoltativo) Modificare il nome della tabella.

Nota

È possibile usare l'elenco a discesa per selezionare Sovrascrivi tabella esistente o Crea nuova tabella. Le operazioni che tentano di creare nuove tabelle con conflitti di nome visualizzano un messaggio di errore.

È possibile configurare opzioni o colonne prima di creare la tabella.

Per creare la tabella, fare clic su Crea nella parte inferiore della pagina.

Opzioni di formato

Le opzioni di formato dipendono dal formato di file caricato. Le opzioni di formato comuni vengono visualizzate nella barra delle intestazioni, mentre le opzioni usate meno comunemente sono disponibili nella finestra di dialogo Attributi avanzati.

  • Per CSV sono disponibili le opzioni seguenti:
    • La prima riga contiene l'intestazione (abilitata per impostazione predefinita): questa opzione specifica se il file CSV/TSV contiene un'intestazione.
    • Delimitatore di colonna: carattere separatore tra le colonne. È consentito un solo carattere e la barra rovesciata non è supportata. Questa impostazione predefinita è la virgola per i file CSV.
    • Rileva automaticamente i tipi di colonna (abilitati per impostazione predefinita): rileva automaticamente i tipi di colonna dal contenuto del file. È possibile modificare i tipi nella tabella di anteprima. Se è impostato su false, tutti i tipi di colonna vengono dedotti come STRING.
    • Righe estese a più righe (disabilitate per impostazione predefinita): indica se il valore di una colonna può estendersi su più righe nel file.
    • Unire lo schema tra più file: indica se dedurre lo schema tra più file e unire lo schema di ogni file. Se disabilitato, viene usato lo schema da un file.
  • Per JSON sono disponibili le opzioni seguenti:
    • Rileva automaticamente i tipi di colonna (abilitati per impostazione predefinita): rileva automaticamente i tipi di colonna dal contenuto del file. È possibile modificare i tipi nella tabella di anteprima. Se è impostato su false, tutti i tipi di colonna vengono dedotti come STRING.
    • Righe che si estendono su più righe (abilitate per impostazione predefinita): indica se il valore di una colonna può estendersi su più righe nel file.
    • Consenti commenti (abilitati per impostazione predefinita): indica se i commenti sono consentiti nel file.
    • Consenti virgolette singole (abilitate per impostazione predefinita): indica se nel file sono consentite virgolette singole.
    • Infer timestamp (abilitato per impostazione predefinita): indica se provare a dedurre stringhe di timestamp come TimestampType.
  • Per JSON sono disponibili le opzioni seguenti:
    • Rileva automaticamente i tipi di colonna (abilitati per impostazione predefinita): rileva automaticamente i tipi di colonna dal contenuto del file. È possibile modificare i tipi nella tabella di anteprima. Se è impostato su false, tutti i tipi di colonna vengono dedotti come STRING.
    • Righe estese a più righe (disabilitate per impostazione predefinita): indica se il valore di una colonna può estendersi su più righe nel file.
    • Consenti commenti Indica se i commenti sono consentiti nel file.
    • Consenti virgolette singole: indica se nel file sono consentite virgolette singole.
    • Infer timestamp: indica se provare a dedurre stringhe di timestamp come TimestampType.

L'anteprima dei dati viene aggiornata automaticamente quando si modificano le opzioni di formato.

Nota

Quando si caricano più file, si applicano le regole seguenti:

  • Le impostazioni di intestazione si applicano a tutti i file. Assicurarsi che le intestazioni siano costantemente assenti o presenti in tutti i file caricati per evitare la perdita di dati.
  • I file caricati vengono combinati aggiungendo tutti i dati come righe nella tabella di destinazione. L'unione o l'unione di record durante il caricamento di file non è supportata.

Nomi e tipi di colonna

È possibile modificare i nomi e i tipi di colonna.

  • Per modificare i tipi, fare clic sull'icona con il tipo.

    Nota

    Non è possibile modificare i tipi annidati per STRUCT o ARRAY.

  • Per modificare il nome della colonna, fare clic sulla casella di input nella parte superiore della colonna.

    I nomi di colonna non supportano virgole, barre rovesciata o caratteri Unicode (ad esempio emoji).

I tipi di dati delle colonne vengono dedotti per impostazione predefinita per i file CSV e JSON. È possibile interpretare tutte le colonne come STRING tipo disabilitando Gli attributi>avanzati rilevano automaticamente i tipi di colonna.

Nota

  • L'inferenza dello schema esegue un rilevamento ottimale dei tipi di colonna. La modifica dei tipi di colonna può comportare il cast di alcuni valori a NULL se non è possibile eseguire correttamente il cast del valore al tipo di dati di destinazione. Il cast BIGINT a DATE colonne o TIMESTAMP non è supportato. Databricks consiglia di creare prima una tabella e quindi trasformare queste colonne usando le funzioni SQL in un secondo momento.
  • Per supportare i nomi delle colonne di tabella con caratteri speciali, la pagina Crea o modifica una tabella usando il caricamento di file sfrutta il mapping delle colonne.
  • Per aggiungere commenti alle colonne, creare la tabella e passare a Esplora cataloghi in cui è possibile aggiungere commenti.

Tipi di dati supportati

La pagina Crea o modifica una tabella usando il caricamento di file supporta i tipi di dati seguenti. Per altre informazioni sui singoli tipi di dati, vedere Tipi di dati SQL.

Tipo di dati Descrizione
BIGINT Numeri interi con segno a 8 byte.
BOOLEAN Valori booleani (true, false).
DATE Valori che comprendono i valori di campi anno, mese e giorno, senza un fuso orario.
DOUBLE Numeri a virgola mobile a precisione doppia a 8 byte.
STRING Valori stringa di caratteri.
TIMESTAMP Valori che comprendono i valori di campi anno, mese, giorno, ora, minuto e secondo, con il fuso orario locale della sessione.
STRUCT Valori con la struttura descritta da una sequenza di campi.
ARRAY Valori che comprendono una sequenza di elementi con il tipo
elementType.
DECIMAL(P,S) Numeri con precisione P massima e scala Sfissa.

Problemi noti

Il cast BIGINT a tipi non castabili come DATE, ad esempio le date nel formato "aa", può generare errori.