Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.
Přidání uživatelského rozhraní pro data
Informace o tom, jak pomocí uživatelského rozhraní pro přidání dat vytvořit spravovanou tabulku z dat v cloudovém úložišti objektů, najdete v tématu Načtení dat pomocí externího umístění katalogu Unity.
Poznámkový blok nebo editor SQL
Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.
Automatický zavaděč
Automatický zavaděč postupně a efektivně zpracovává nové datové soubory, jakmile dorazí do cloudového úložiště, bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Na základě cesty ke vstupnímu adresáři v cloudovém úložišti cloudFiles zdroj automaticky zpracovává nové soubory, jakmile se objeví, s možností zpracovat také existující soubory v tomto adresáři.
COPY INTO
S COPY INTOmůžou uživatelé SQL idempotentně a přírůstkově integrovat data z úložiště objektů v cloudu do tabulek Delta. Můžete použít COPY INTO v Databricks SQL, poznámkových blocích a úlohách Lakeflow.
Kdy použít COPY INTO a kdy použít Automatický Zavaděč
Zde je několik věcí, které je potřeba vzít v úvahu při výběru mezi Auto Loader a COPY INTO:
- Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít
COPY INTO. Pokud očekáváte soubory v řádu milionů nebo více, použijte Auto Loader. Automatický zavaděč vyžaduje méně celkových operací k vyhledávání souborů v porovnání sCOPY INTOa může rozdělit zpracování do několika dávek, což znamená, že automatický zavaděč je levnější a efektivnější ve velkém rozsahu. - Pokud se vaše schéma dat bude často vyvíjet, auto loader poskytuje lepší primitivní datové typy kolem odvozování a vývoje schématu. Další podrobnosti najdete v tématu Konfigurace odvozování schématu a vývoje v automatickém zavaděči.
- Načítání podmnožinu znovu nahraných souborů lze spravovat trochu snadněji pomocí
COPY INTO. S funkcí Auto Loader je obtížnější znovu zpracovat konkrétní podmnožinu souborů. Můžete však použítCOPY INTOk opětovnému načtení podmnožin souborů, zatímco současně běží stream automatického načítání.
- Pro ještě škálovatelnější a robustnější prostředí pro příjem souborů umožňuje auto loader uživatelům SQL využívat streamované tabulky. Viz Použití streamovaných tabulek v Databricks SQL.
Stručný přehled a ukázku Auto Loaderu a COPY INTOpodívejte se na následující video YouTube (2 minuty).
Automatizujte ETL pomocí deklarativních kanálů Spark s Lakeflow a Auto Loader.
Můžete zjednodušit nasazení škálovatelné infrastruktury přírůstkového příjmu dat pomocí deklarativních kanálů Auto Loader a Lakeflow Spark. Deklarativní kanály Sparku Lakeflow nepoužívají standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.
- Kurz: Sestavení kanálu ETL pomocí deklarativních kanálů Sparku Lakeflow
- Nahrávání dat z Azure Data Lake Storage
Nástroje pro příjem dat třetích stran
Databricks ověřuje integrace technologických partnerů, které vám umožňují načítat data z různých zdrojů, včetně cloudového objektového úložiště. Tyto integrace umožňují škálovatelný příjem dat s využitím low-code řešení z různých zdrojů do Azure Databricks. Viz Technologické partnery. Někteří technologičtí partneři jsou zahrnuti v části 'Co je Databricks Partner Connect?', což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim lakehouse datům.