Sdílet prostřednictvím


Vytvoření nebo úprava tabulky pomocí nahrání souboru

Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru umožňuje nahrát soubor CSV, TSV nebo JSON, Avro, Parquet nebo textové soubory k vytvoření nebo přepsání spravované tabulky Delta Lake.

Spravované tabulky Delta můžete vytvářet v katalogu Unity nebo v metastoru Hive.

Poznámka:

Kromě toho můžete k načtení souborů z cloudového úložiště použít uživatelské rozhraní pro přidání dat nebo funkci COPY INTO .

Důležité

Pomocí uživatelského rozhraní můžete vytvořit tabulku Delta importem malých CSV, TSV, JSON, Avro, Parquet nebo textových souborů z místního počítače.

  • Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru podporuje nahrávání až 10 souborů najednou.
  • Celková velikost nahraných souborů musí být pod 2 gigabajty.
  • Soubor musí být CSV, TSV, JSON, Avro, Parquet nebo textový soubor s příponou ".csv", ".tsv" (nebo ".tab"), ".json", ".avro", ".parquet" nebo ".txt".
  • Komprimované soubory, jako zip jsou a tar soubory, nejsou podporovány.

Nahrání souboru

  1. Klikněte na Nová ikona Tlačítko Nový > přidat data.
  2. Klikněte na Vytvořit nebo upravit tabulku.
  3. Klikněte na tlačítko prohlížeče souborů nebo soubory přetáhněte přímo do zóny přetažení.

Poznámka:

Importované soubory se nahrají do zabezpečeného interního umístění ve vašem účtu, které se denně shromažďuje z paměti.

Náhled, konfigurace a vytvoření tabulky

Data můžete nahrát do pracovní oblasti bez připojení k výpočetním prostředkům, ale musíte vybrat aktivní výpočetní prostředek, abyste mohli zobrazit náhled a nakonfigurovat tabulku.

Když nakonfigurujete možnosti nahrané tabulky, můžete zobrazit náhled 50 řádků dat. Kliknutím na tlačítka mřížky nebo seznamu pod názvem souboru přepněte prezentaci dat.

Azure Databricks ukládá datové soubory pro spravované tabulky v umístěních nakonfigurovaných pro obsahující schéma. K vytvoření tabulky ve schématu potřebujete správná oprávnění.

Vyberte požadované schéma, ve kterém chcete vytvořit tabulku:

  1. (Pouze pro pracovní prostory s podporou katalogu Unity) Můžete vybrat katalog nebo starší verzi hive_metastore.
  2. Vyberte schéma.
  3. (Volitelné) Upravte název tabulky.

Poznámka:

V rozevíracím seznamu můžete vybrat Možnost Přepsat existující tabulku nebo Vytvořit novou tabulku. Operace, které se pokusí vytvořit nové tabulky s konflikty názvů, zobrazí chybovou zprávu.

Před vytvořením tabulky můžete nakonfigurovat možnosti nebo sloupce .

Pokud chcete vytvořit tabulku, klikněte na Vytvořit v dolní části stránky.

Možnosti formátu

Možnosti formátu závisí na formátu souboru, který nahrajete. Běžné možnosti formátu se zobrazují na panelu záhlaví, zatímco méně často používané možnosti jsou k dispozici v dialogovém okně Upřesnit atributy .

  • Pro sdílený svazek clusteru jsou k dispozici následující možnosti:
    • První řádek obsahuje záhlaví (ve výchozím nastavení povoleno): Tato možnost určuje, jestli soubor CSV/TSV obsahuje záhlaví.
    • Oddělovač sloupců: Znak oddělovače mezi sloupci. Je povolen pouze jeden znak a zpětné lomítko není podporováno. Výchozí hodnota je čárka pro soubory CSV.
    • Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING.
    • Řádky zahrnují více řádků (ve výchozím nastavení zakázáno): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
    • Sloučení schématu mezi více soubory: Zda se má schéma odvodit mezi více soubory a sloučit schéma každého souboru. Pokud je schéma zakázané, použije se schéma z jednoho souboru.
  • Pro JSON jsou k dispozici následující možnosti:
    • Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING.
    • Řádky zahrnují více řádků (ve výchozím nastavení jsou povolené): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
    • Povolit komentáře (ve výchozím nastavení povolené): Určuje, jestli jsou v souboru povolené komentáře.
    • Povolit jednoduché uvozovky (ve výchozím nastavení povolené): Jestli jsou v souboru povolené jednoduché uvozovky.
    • Časové razítko odvozování (ve výchozím nastavení povoleno): Zda se chcete pokusit odvodit řetězce časového razítka jako TimestampType.
  • Pro JSON jsou k dispozici následující možnosti:
    • Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING.
    • Řádky zahrnují více řádků (ve výchozím nastavení zakázáno): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
    • Povolit komentáře , jestli jsou v souboru povolené komentáře.
    • Povolit jednoduché uvozovky: Jestli jsou v souboru povolené jednoduché uvozovky.
    • Časové razítko odvozování: Zda se pokusit odvodit řetězce časového razítka jako TimestampType.

Náhled dat se automaticky aktualizuje při úpravě možností formátu.

Poznámka:

Při nahrávání více souborů platí následující pravidla:

  • Nastavení záhlaví platí pro všechny soubory. Aby nedošlo ke ztrátě dat, ujistěte se, že záhlaví konzistentně chybí nebo existují ve všech nahraných souborech.
  • Nahrané soubory se kombinují připojením všech dat jako řádků v cílové tabulce. Připojování nebo slučování záznamů během nahrávání souborů se nepodporuje.

Názvy a typy sloupců

Můžete upravit názvy a typy sloupců.

  • Pokud chcete upravit typy, klikněte na ikonu s typem.

    Poznámka:

    Nelze upravovat vnořené typy pro STRUCT nebo ARRAY.

  • Pokud chcete upravit název sloupce, klikněte na vstupní pole v horní části sloupce.

    Názvy sloupců nepodporují čárky, zpětné lomítka nebo znaky Unicode (například emoji).

Datové typy sloupců se ve výchozím nastavení odvozují pro soubory CSV a JSON. Všechny sloupce můžete interpretovat jako STRING typ zakázáním rozšířených>atributů automaticky rozpoznat typy sloupců.

Poznámka:

  • Odvozování schématu dělá nejlepší úsilí pro detekci typů sloupců. Změna typů sloupců může vést k přetypování NULL některých hodnot, pokud hodnotu nelze správně přetypovat na cílový datový typ. Přetypování BIGINT do DATE sloupců nebo TIMESTAMP sloupců není podporováno. Databricks doporučuje nejprve vytvořit tabulku a potom tyto sloupce transformovat pomocí funkcí SQL.
  • Pro podporu názvů sloupců tabulky se speciálními znaky využívá mapování sloupců vytvoření nebo úprava tabulky pomocí stránky pro nahrání souboru.
  • Pokud chcete přidat komentáře do sloupců, vytvořte tabulku a přejděte do Průzkumníka katalogu, kde můžete přidávat komentáře.

Podporované datové typy

Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru podporuje následující datové typy. Další informace o jednotlivých datových typech naleznete v tématu Datové typy SQL.

Datový typ Popis
BIGINT 8 bajtová celočíselná čísla.
BOOLEAN Logické hodnoty (true, false)
DATE Hodnoty obsahující hodnoty pro rok, měsíc a den bez časového pásma.
DOUBLE Čísla s plovoucí desetinnou čárkou s dvojitou přesností 8 bajtů
STRING Hodnoty řetězce znaků.
TIMESTAMP Hodnoty obsahující hodnoty pro rok, měsíc, den, hodinu, minutu a sekundu s místním časovým pásmem relace.
STRUCT Hodnoty se strukturou popsanou posloupností polí
ARRAY Hodnoty tvořené sekvencí prvků s typem
elementType.
DECIMAL(P,S) Čísla s maximální přesností P a pevným měřítkem S.

Známé problémy

Přetypování BIGINT na nepřetypovatelné typy, jako DATEjsou kalendářní data ve formátu rrrr, můžou aktivovat chyby.