Vytvoření nebo úprava tabulky pomocí nahrání souboru
Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru umožňuje nahrát soubor CSV, TSV nebo JSON, Avro, Parquet nebo textové soubory k vytvoření nebo přepsání spravované tabulky Delta Lake.
Spravované tabulky Delta můžete vytvářet v katalogu Unity nebo v metastoru Hive.
Poznámka:
Kromě toho můžete k načtení souborů z cloudového úložiště použít uživatelské rozhraní pro přidání dat nebo funkci COPY INTO .
Důležité
- Abyste mohli vytvářet tabulky v cílovém schématu, musíte mít přístup ke spuštěným výpočetním prostředkům a oprávněním.
- Správci pracovního prostoru můžou zakázat vytvoření nebo úpravu tabulky pomocí stránky pro nahrání souboru.
Pomocí uživatelského rozhraní můžete vytvořit tabulku Delta importem malých CSV, TSV, JSON, Avro, Parquet nebo textových souborů z místního počítače.
- Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru podporuje nahrávání až 10 souborů najednou.
- Celková velikost nahraných souborů musí být pod 2 gigabajty.
- Soubor musí být CSV, TSV, JSON, Avro, Parquet nebo textový soubor s příponou ".csv", ".tsv" (nebo ".tab"), ".json", ".avro", ".parquet" nebo ".txt".
- Komprimované soubory, jako
zip
jsou atar
soubory, nejsou podporovány.
Nahrání souboru
- Klikněte na Tlačítko Nový > přidat data.
- Klikněte na Vytvořit nebo upravit tabulku.
- Klikněte na tlačítko prohlížeče souborů nebo soubory přetáhněte přímo do zóny přetažení.
Poznámka:
Importované soubory se nahrají do zabezpečeného interního umístění ve vašem účtu, které se denně shromažďuje z paměti.
Náhled, konfigurace a vytvoření tabulky
Data můžete nahrát do pracovní oblasti bez připojení k výpočetním prostředkům, ale musíte vybrat aktivní výpočetní prostředek, abyste mohli zobrazit náhled a nakonfigurovat tabulku.
Když nakonfigurujete možnosti nahrané tabulky, můžete zobrazit náhled 50 řádků dat. Kliknutím na tlačítka mřížky nebo seznamu pod názvem souboru přepněte prezentaci dat.
Azure Databricks ukládá datové soubory pro spravované tabulky v umístěních nakonfigurovaných pro obsahující schéma. K vytvoření tabulky ve schématu potřebujete správná oprávnění.
Vyberte požadované schéma, ve kterém chcete vytvořit tabulku:
- (Pouze pro pracovní prostory s podporou katalogu Unity) Můžete vybrat katalog nebo starší verzi
hive_metastore
. - Vyberte schéma.
- (Volitelné) Upravte název tabulky.
Poznámka:
V rozevíracím seznamu můžete vybrat Možnost Přepsat existující tabulku nebo Vytvořit novou tabulku. Operace, které se pokusí vytvořit nové tabulky s konflikty názvů, zobrazí chybovou zprávu.
Před vytvořením tabulky můžete nakonfigurovat možnosti nebo sloupce .
Pokud chcete vytvořit tabulku, klikněte na Vytvořit v dolní části stránky.
Možnosti formátu
Možnosti formátu závisí na formátu souboru, který nahrajete. Běžné možnosti formátu se zobrazují na panelu záhlaví, zatímco méně často používané možnosti jsou k dispozici v dialogovém okně Upřesnit atributy .
- Pro sdílený svazek clusteru jsou k dispozici následující možnosti:
- První řádek obsahuje záhlaví (ve výchozím nastavení povoleno): Tato možnost určuje, jestli soubor CSV/TSV obsahuje záhlaví.
- Oddělovač sloupců: Znak oddělovače mezi sloupci. Je povolen pouze jeden znak a zpětné lomítko není podporováno. Výchozí hodnota je čárka pro soubory CSV.
- Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako
STRING
. - Řádky zahrnují více řádků (ve výchozím nastavení zakázáno): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
- Sloučení schématu mezi více soubory: Zda se má schéma odvodit mezi více soubory a sloučit schéma každého souboru. Pokud je schéma zakázané, použije se schéma z jednoho souboru.
- Pro JSON jsou k dispozici následující možnosti:
- Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako
STRING
. - Řádky zahrnují více řádků (ve výchozím nastavení jsou povolené): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
- Povolit komentáře (ve výchozím nastavení povolené): Určuje, jestli jsou v souboru povolené komentáře.
- Povolit jednoduché uvozovky (ve výchozím nastavení povolené): Jestli jsou v souboru povolené jednoduché uvozovky.
- Časové razítko odvozování (ve výchozím nastavení povoleno): Zda se chcete pokusit odvodit řetězce časového razítka jako
TimestampType
.
- Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako
- Pro JSON jsou k dispozici následující možnosti:
- Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako
STRING
. - Řádky zahrnují více řádků (ve výchozím nastavení zakázáno): Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.
- Povolit komentáře , jestli jsou v souboru povolené komentáře.
- Povolit jednoduché uvozovky: Jestli jsou v souboru povolené jednoduché uvozovky.
- Časové razítko odvozování: Zda se pokusit odvodit řetězce časového razítka jako
TimestampType
.
- Automaticky zjišťovat typy sloupců (ve výchozím nastavení povoleno): Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako
Náhled dat se automaticky aktualizuje při úpravě možností formátu.
Poznámka:
Při nahrávání více souborů platí následující pravidla:
- Nastavení záhlaví platí pro všechny soubory. Aby nedošlo ke ztrátě dat, ujistěte se, že záhlaví konzistentně chybí nebo existují ve všech nahraných souborech.
- Nahrané soubory se kombinují připojením všech dat jako řádků v cílové tabulce. Připojování nebo slučování záznamů během nahrávání souborů se nepodporuje.
Názvy a typy sloupců
Můžete upravit názvy a typy sloupců.
Pokud chcete upravit typy, klikněte na ikonu s typem.
Poznámka:
Nelze upravovat vnořené typy pro
STRUCT
neboARRAY
.Pokud chcete upravit název sloupce, klikněte na vstupní pole v horní části sloupce.
Názvy sloupců nepodporují čárky, zpětné lomítka nebo znaky Unicode (například emoji).
Datové typy sloupců se ve výchozím nastavení odvozují pro soubory CSV a JSON. Všechny sloupce můžete interpretovat jako STRING
typ zakázáním rozšířených>atributů automaticky rozpoznat typy sloupců.
Poznámka:
- Odvozování schématu dělá nejlepší úsilí pro detekci typů sloupců. Změna typů sloupců může vést k přetypování
NULL
některých hodnot, pokud hodnotu nelze správně přetypovat na cílový datový typ. PřetypováníBIGINT
doDATE
sloupců neboTIMESTAMP
sloupců není podporováno. Databricks doporučuje nejprve vytvořit tabulku a potom tyto sloupce transformovat pomocí funkcí SQL. - Pro podporu názvů sloupců tabulky se speciálními znaky využívá mapování sloupců vytvoření nebo úprava tabulky pomocí stránky pro nahrání souboru.
- Pokud chcete přidat komentáře do sloupců, vytvořte tabulku a přejděte do Průzkumníka katalogu, kde můžete přidávat komentáře.
Podporované datové typy
Stránka Vytvořit nebo upravit tabulku pomocí stránky pro nahrání souboru podporuje následující datové typy. Další informace o jednotlivých datových typech naleznete v tématu Datové typy SQL.
Datový typ | Popis |
---|---|
BIGINT |
8 bajtová celočíselná čísla. |
BOOLEAN |
Logické hodnoty (true , false ) |
DATE |
Hodnoty obsahující hodnoty pro rok, měsíc a den bez časového pásma. |
DOUBLE |
Čísla s plovoucí desetinnou čárkou s dvojitou přesností 8 bajtů |
STRING |
Hodnoty řetězce znaků. |
TIMESTAMP |
Hodnoty obsahující hodnoty pro rok, měsíc, den, hodinu, minutu a sekundu s místním časovým pásmem relace. |
STRUCT |
Hodnoty se strukturou popsanou posloupností polí |
ARRAY |
Hodnoty tvořené sekvencí prvků s typemelementType . |
DECIMAL(P,S) |
Čísla s maximální přesností P a pevným měřítkem S . |
Známé problémy
Přetypování BIGINT
na nepřetypovatelné typy, jako DATE
jsou kalendářní data ve formátu rrrr, můžou aktivovat chyby.