Sdílet prostřednictvím


Příjem dat z cloudového úložiště objektů

Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.

Přidání uživatelského rozhraní pro data

Informace o tom, jak pomocí uživatelského rozhraní pro přidání dat vytvořit spravovanou tabulku z dat v cloudovém úložišti objektů, najdete v tématu Načtení dat pomocí externího umístění katalogu Unity.

Poznámkový blok nebo editor SQL

Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.

Automatický zavaděč

Automatický zavaděč postupně a efektivně zpracovává nové datové soubory, jakmile dorazí do cloudového úložiště, bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Na základě cesty ke vstupnímu adresáři v cloudovém úložišti cloudFiles zdroj automaticky zpracovává nové soubory, jakmile se objeví, s možností zpracovat také existující soubory v tomto adresáři.

COPY INTO

S COPY INTOmůžou uživatelé SQL idempotentně a přírůstkově integrovat data z úložiště objektů v cloudu do tabulek Delta. Můžete použít COPY INTO v Databricks SQL, poznámkových blocích a úlohách Lakeflow.

Kdy použít COPY INTO a kdy použít Automatický Zavaděč

Zde je několik věcí, které je potřeba vzít v úvahu při výběru mezi Auto Loader a COPY INTO:

  • Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít COPY INTO. Pokud očekáváte soubory v řádu milionů nebo více, použijte Auto Loader. Automatický zavaděč vyžaduje méně celkových operací k vyhledávání souborů v porovnání s COPY INTO a může rozdělit zpracování do několika dávek, což znamená, že automatický zavaděč je levnější a efektivnější ve velkém rozsahu.
  • Pokud se vaše schéma dat bude často vyvíjet, auto loader poskytuje lepší primitivní datové typy kolem odvozování a vývoje schématu. Další podrobnosti najdete v tématu Konfigurace odvozování schématu a vývoje v automatickém zavaděči.
  • Načítání podmnožinu znovu nahraných souborů lze spravovat trochu snadněji pomocí COPY INTO. S funkcí Auto Loader je obtížnější znovu zpracovat konkrétní podmnožinu souborů. Můžete však použít COPY INTO k opětovnému načtení podmnožin souborů, zatímco současně běží stream automatického načítání.

Stručný přehled a ukázku Auto Loaderu a COPY INTOpodívejte se na následující video YouTube (2 minuty).

Automatizujte ETL pomocí deklarativních kanálů Spark s Lakeflow a Auto Loader.

Můžete zjednodušit nasazení škálovatelné infrastruktury přírůstkového příjmu dat pomocí deklarativních kanálů Auto Loader a Lakeflow Spark. Deklarativní kanály Sparku Lakeflow nepoužívají standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.

Nástroje pro příjem dat třetích stran

Databricks ověřuje integrace technologických partnerů, které vám umožňují načítat data z různých zdrojů, včetně cloudového objektového úložiště. Tyto integrace umožňují škálovatelný příjem dat s využitím low-code řešení z různých zdrojů do Azure Databricks. Viz Technologické partnery. Někteří technologičtí partneři jsou zahrnuti v části 'Co je Databricks Partner Connect?', což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim lakehouse datům.