Dela via


Utlöser jobb när nya filer tas emot

Du kan använda utlösare för fil ankomst för att utlösa en körning av ditt Azure Databricks-jobb när nya filer kommer till en extern plats , till exempel Amazon S3, Azure Storage eller Google Cloud Storage. Du kan använda denna funktion när ett schemalagt jobb kan vara ineffektivt eftersom nya data tas emot enligt ett oregelbundet schema.

Utlösare för filinkomst gör ett bra försök att söka efter nya filer varje minut, även om detta kan påverkas av prestanda för den underliggande molnlagringen. Utlösare för filinkomst medför inte andra kostnader än kostnader för molnleverantörer som är associerade med att visa filer på lagringsplatsen.

En utlösare för filinkomst kan konfigureras för att övervaka roten på en extern plats eller volym i Unity Catalog, eller en undersökväg till en extern plats eller volym. För unity catalog-rotvolymen /Volumes/mycatalog/myschema/myvolume/är till exempel följande giltiga sökvägar för en utlösare för filinkomst:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Krav

Följande krävs för att använda utlösare för filinkomst:

Begränsningar

  • Högst femtio jobb kan konfigureras med en utlösare för filinmatning på en Azure Databricks-arbetsyta.
  • En lagringsplats som konfigurerats för en utlösare för filinkomst kan bara innehålla upp till 10 000 filer. Platser med fler filer kan inte övervakas för nya filinkomster. Om den konfigurerade lagringsplatsen är en undersökväg till en extern plats eller volym för Unity Catalog gäller filgränsen på 10 000 för undersökvägen och inte roten på lagringsplatsen. Lagringsplatsens rot kan till exempel innehålla mer än 10 000 filer i dess underkataloger, men den konfigurerade underkatalogen får inte överskrida filgränsen på 10 000.
  • Sökvägen som används för en utlösare för filankomst får inte innehålla några externa tabeller eller hanterade platser för kataloger och scheman.

Lägga till en utlösare för filinkomst

Så här lägger du till en utlösare för filinflytt till ett jobb:

  1. I sidofältet klickar du på Arbetsflöden.
  2. Klicka på jobbnamnet i kolumnen Namnfliken Jobb.
  3. I panelen Jobbinformation till höger klickar du på Lägg till utlösare.
  4. I Utlösartyp väljer du Fil ankomst.
  5. I Lagringsplats anger du URL:en för roten eller en undersökväg till en extern plats i Unity Catalog eller roten eller en undersökväg till en Unity Catalog-volym som ska övervakas.
  6. (Valfritt) Konfigurera avancerade alternativ:
    • Minsta tid mellan utlösare i sekunder: Minsta tid att vänta på att utlösa en körning när en tidigare körning har slutförts. Filer som tas emot under den här perioden utlöser endast en körning när väntetiden upphör att gälla. Använd den här inställningen för att styra hur ofta körningen skapas.
    • Vänta efter senaste ändringen i sekunder: Tiden att vänta för att utlösa en körning efter att filen har anlänt. En annan fil som anländer under den här perioden återställer timern. Den här inställningen kan användas när filer tas emot i batchar och hela batchen måste bearbetas när alla filer har anlänt.
  7. Verifiera konfigurationen genom att klicka på Testa anslutning.
  8. Klicka på Spara.

Få meddelanden om utlösare för misslyckad filankomst

Om du vill få meddelande om en utlösare för filankomst misslyckas att utvärdera konfigurerar du e-post- eller systemmålmeddelanden om jobbfel. Se Lägga till e-post- och systemaviseringar för jobbhändelser.