Sdílet prostřednictvím


Příjem dat do datového jezera Databricks

Azure Databricks nabízí různé způsoby, jak vám pomoct ingestovat data do jezera, který podporuje Delta Lake. Databricks doporučuje používat automatický zavaděč pro přírůstkové příjem dat z cloudového úložiště objektů. Uživatelské rozhraní pro přidání dat poskytuje řadu možností rychlého nahrání místních souborů nebo připojení k externím zdrojům dat.

Spuštění první úlohy ETL

Pokud jste v Azure Databricks nepoužívali automatický zavaděč, začněte kurzem. Viz Spuštění první úlohy ETL v Azure Databricks.

Automatický zavaděč

Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři.

Automatizace ETL s rozdílovými živými tabulkami a automatickým zavaděčem

Můžete zjednodušit nasazení škálovatelné infrastruktury přírůstkového příjmu dat pomocí automatického zavaděče a rozdílových živých tabulek. Všimněte si, že rozdílové živé tabulky nepoužívají standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.

Nahrání místních datových souborů nebo připojení externích zdrojů dat

K vytváření tabulek můžete bezpečně nahrát místní datové soubory nebo ingestovat data z externích zdrojů. Viz Načtení dat pomocí uživatelského rozhraní pro přidání dat.

Příjem dat do Azure Databricks pomocí nástrojů třetích stran

Azure Databricks ověřuje integrace technologických partnerů, které umožňují ingestovat data do Azure Databricks. Tyto integrace umožňují příjem dat z různých zdrojů do Azure Databricks s nízkými kódy a škálovatelnými daty. Viz Technologické partnery. Někteří technologickí partneři jsou doporučeni v Databricks Partner Connect, což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k datům lakehouse.

COPY INTO

COPY INTO umožňuje uživatelům SQL idempotentní a přírůstkově ingestovat data z cloudového úložiště objektů do tabulek Delta. Dá se použít v Databricks SQL, poznámkových blocích a úlohách Databricks.

Kdy použít FUNKCI COPY INTO a kdy použít automatický zavaděč

Tady je několik věcí, které je potřeba vzít v úvahu při výběru mezi automatickým zavaděčem a COPY INTO:

  • Pokud budete soubory ingestovat v pořadí tisíců, můžete použít COPY INTO. Pokud očekáváte soubory v pořadí milionů nebo více v průběhu času, použijte automatický zavaděč. Automatický zavaděč vyžaduje méně celkových operací ke zjišťování souborů ve srovnání COPY INTO se soubory a může rozdělit zpracování do několika dávek, což znamená, že automatické zavaděče je levnější a efektivnější ve velkém měřítku.

  • Pokud se vaše datové schéma bude často vyvíjet, auto loader poskytuje lepší primitiva kolem odvozování a vývoje schématu. Další podrobnosti najdete v tématu Konfigurace odvozování schématu a vývoj v auto loaderu .

  • Načítání podmnožina znovu nahraných souborů může být trochu jednodušší spravovat pomocí COPY INTO. S automatickým zavaděčem je obtížnější znovu zpracovat výběrovou podmnožinu souborů. Můžete ale použít COPY INTO k opětovnému načtení podmnožin souborů, zatímco stream automatického zavaděče běží současně.

  • Pro ještě škálovatelnější a robustnější prostředí pro příjem souborů umožňuje auto loader uživatelům SQL využívat streamované tabulky. Viz Načtení dat pomocí streamovaných tabulek v Databricks SQL.

Stručný přehled a ukázku automatického zavaděče a také COPY INTOse podívejte na následující video YouTube (2 minuty).

Kontrola metadat souborů zachycených během příjmu dat

Apache Spark během načítání dat automaticky zaznamenává data o zdrojových souborech. Azure Databricks umožňuje přístup k datům pomocí sloupce Metadata souboru.

Nahrání exportů tabulek do Azure Databricks

K nahrání souborů CSV, TSV nebo SOUBORŮ JSON použijte stránku Vytvořit nebo upravit tabulku ze stránky pro nahrání souboru. Viz Vytvoření nebo úprava tabulky pomocí nahrání souboru.

Migrace datových aplikací do Azure Databricks

Migrujte existující datové aplikace do Azure Databricks, abyste mohli pracovat s daty z mnoha zdrojových systémů na jedné platformě. Viz Migrace datových aplikací do Azure Databricks.