Načtení do tabulky Delta Lake

Lakehouse v Microsoft Fabric poskytuje funkci pro efektivní načtení běžných typů souborů do optimalizované tabulky Delta připravené k analýze. Funkce Načíst do tabulky umožňuje uživatelům načíst jeden soubor nebo složku souborů do tabulky. Tato funkce zvyšuje produktivitu datových inženýrů tím, že jim umožní rychle použít akci kliknutí pravým tlačítkem a povolit načítání tabulek u souborů a složek. Načítání do tabulky je také prostředí bez kódu, které snižuje vstupní panel pro všechny osoby.

Přehled možností načtení do tabulky

Tady je seznam funkcí, které jsme povolili v integrovaném načítání do tabulkového prostředí, abychom našim uživatelům poskytli flexibilitu a zároveň zvýšili jejich produktivitu:

  • Podporované typy souborů: Tato funkce aktuálně podporuje pouze načítání typů souborů PARQUET nebo CSV. Na příponě souboru nezáleží.

  • Načtení jednoho souboru: Uživatelé můžou načíst jeden soubor podle svého výběru v jednom z podporovaných formátů tak, že v akci místní nabídky souboru vyberou "Načíst do tabulky Delta".

  • Načtení na úrovni složky: Po kliknutí na složku můžete načíst všechny soubory ve složce a její podsložky najednou tak, že vyberete Možnost Načíst do tabulky Delta. Tato funkce automaticky prochází všechny soubory a načte je do tabulky Delta. Je důležité si uvědomit, že do tabulky je možné načíst současně jenom soubory stejného typu.

  • Načíst do nové a existující tabulky: Uživatel se může rozhodnout, že načte soubory a složky do nové tabulky nebo existující tabulky podle svého výběru. Pokud se rozhodnou načíst do existující tabulky, mají možnost připojit nebo přepsat data v tabulce.

  • Možnost Zdrojový soubor CSV: U souborů CSV umožňujeme uživatelům určit, jestli zdrojový soubor obsahuje hlavičky, které by chtěli využít jako názvy sloupců. Uživatelé mohou také zadat oddělovač podle vlastního výběru, který přepíše výchozí oddělovač čárky.

  • Načteno jako tabulky Delta: Tabulky se vždy načítají pomocí formátu tabulky Delta Lake s povolenou optimalizací pořadí V.

    Gif of overall load folder to table experience.

Ověřovací pokyny a pravidla

Následující standard se vztahuje na prostředí pro načtení do tabulky:

  • Názvy tabulek můžou obsahovat pouze alfanumerické znaky a podtržítka. Umožňuje také libovolné anglické písmeno, velká nebo malá písmena a podtržítko (_) s maximální délkou 256 znaků. Nejsou povoleny pomlčky (-) ani mezery.

  • Textové soubory bez záhlaví sloupců se nahradí standardním col# zápisem jako názvy sloupců tabulky.

  • Názvy sloupců umožňují všechna anglická písmena, velká nebo malá písmena, podtržítka (_) a znaky v jiném jazyce, jako je čínština v UTF, délka až 32 znaků. Názvy sloupců se ověřují během akce načtení. Algoritmus Load to Delta nahrazuje zakázané hodnoty podbar (_). Pokud se během ověřování nedosáhne žádného správného názvu sloupce, akce načtení selže.

  • U souborů CSV nesmí být oddělovač prázdný, nesmí být delší než 8 znaků nebo nesmí obsahovat žádný z následujících znaků: (, , ), [, ,{] , }jednoduchá uvozovka ('), dvojitá uvozovka (") a prázdné znaky.