Dela via


Mata in data från molnobjektlagring

Den här artikeln visar hur du kan konfigurera inkrementell inmatning från molnobjektlagring.

Lägga till datagränssnitt

Information om hur du använder användargränssnittet för att lägga till data för att skapa en hanterad tabell från data i molnobjektlagring finns i Läsa in data med en extern plats i Unity Catalog.

Notebook- eller SQL-redigerare

I det här avsnittet beskrivs alternativ för att konfigurera inkrementell inmatning från molnobjektlagring med hjälp av en notebook-fil eller Databricks SQL-redigeraren.

Automatladdare

Automatisk inläsning bearbetar inkrementellt och effektivt nya datafiler när de tas emot i molnlagring utan ytterligare installation. Automatisk inläsning tillhandahåller en strukturerad strömningskälla med namnet cloudFiles. Med tanke på en sökväg till indatakatalogen i molnfillagringen cloudFiles bearbetar källan automatiskt nya filer när de tas emot, med möjlighet att även bearbeta befintliga filer i katalogen.

COPY INTO

Med COPY INTOkan SQL-användare idempotent och inkrementellt mata in data från molnobjektlagring till Delta-tabeller. Du kan använda COPY INTO i Databricks SQL, notebook-filer och Lakeflow-jobb.

När du ska använda COPY INTO och när du ska använda Auto Loader

Här följer några saker att tänka på när du väljer mellan Auto Loader och COPY INTO:

  • Om du ska mata in filer i storleksordningen tusentals över tid kan du använda COPY INTO. Om du förväntar dig filer i storleksordningen miljontals eller fler över tid använder du Auto Loader. Automatisk inläsning kräver färre totala åtgärder för att COPY INTO identifiera filer jämfört med och kan dela upp bearbetningen i flera batchar, vilket innebär att automatisk inläsning är billigare och effektivare i stor skala.
  • Om dataschemat kommer att utvecklas ofta ger Auto Loader bättre primitiva datatyper kring schemainferens och utveckling. Mer information finns i Konfigurera schemainferens och utveckling i Auto Loader .
  • Det kan vara lite enklare att hantera en delmängd av omuppladdade filer med COPY INTO. Med Auto Loader är det svårare att bearbeta en utvald delmängd av filer. Du kan dock använda COPY INTO för att läsa in delmängden av filer igen medan en automatisk inläsningsström körs samtidigt.

För en kort översikt och demonstration av Auto Loader och COPY INTO, titta på följande YouTube-video (2 minuter).

Automatisera ETL med Lakeflow Spark Deklarativa Pipelines och Auto Loader

Du kan förenkla distributionen av skalbar, inkrementell datainmatningsinfrastruktur med Auto Loader och Lakeflow Spark Deklarativa Pipelines. Lakeflow Spark Deklarativa Pipelines använder inte den interaktiva standardkörningen som finns i notebook-filer, utan betonar i stället driftsättningen av infrastruktur som är redo för produktion.

Verktyg för inmatning från tredje part

Databricks validerar teknikpartnerintegreringar som gör att du kan mata in från olika källor, inklusive lagring av molnobjekt. Dessa integreringar möjliggör datainmatning med låg kod och skalbar datainmatning från en mängd olika källor till Azure Databricks. Se Teknikpartner. Vissa teknikpartners finns med i Vad är Databricks Partner Connect?, som tillhandahåller ett användargränssnitt som förenklar anslutning av verktyg från tredje part till dina lakehouse-data.