Dela via


Kopiera data och transformera med dynamiska parametrar varje timme

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage och transformera med Azure Databricks (med dynamiska parametrar i skriptet) enligt ett schema per timme i 8 timmar varje dag under 30 dagar.

Priserna som används i det här exemplet nedan är hypotetiska och är inte avsedda att innebära exakta faktiska priser. Läs-/skriv- och övervakningskostnader visas inte eftersom de vanligtvis är försumbara och inte påverkar de totala kostnaderna avsevärt. Aktivitetskörningar avrundas också till de närmaste 1 000 i priskalkylatorns uppskattningar.

Se Priskalkylatorn för Azure för mer specifika scenarier och för att beräkna framtida kostnader för att använda tjänsten.

Konfiguration

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  • En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3, en utdatauppsättning för data i Azure Storage.
  • En sökningsaktivitet för att skicka parametrar dynamiskt till transformeringsskriptet.
  • En Azure Databricks-aktivitet för datatransformeringen.
  • En schemautlösare för att köra pipelinen varje timme i 8 timmar per dag. När du vill köra en pipeline kan du antingen utlösa den direkt eller schemalägga den. Förutom själva pipelinen räknas varje utlösarinstans som en enda aktivitetskörning.

Diagrammet visar en pipeline med en schemautlösare. I pipelinen kopierar du aktivitetsflöden till en indatauppsättning, en utdatauppsättning och uppslagsaktivitet som flödar till en DataBricks-aktivitet som körs på Azure Databricks. Indatauppsättningen flödar till en länkad AWS S3-tjänst. Utdatauppsättningen flödar till en länkad Azure Storage-tjänst.

Kostnadsuppskattning

Drift Typer och enheter
Kör pipeline 4 Aktivitetskörningar per körning (1 för utlösarkörning, 3 för aktivitetskörningar) = 960 aktivitetskörningar, avrundade eftersom kalkylatorn endast tillåter ökningar på 1 000.
Kopiera dataantagande: DIU-timmar per körning = 10 min 10 min \ 60 min * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Execute Lookup activity Assumption: pipeline activity hours per execution = 1 min 1 min/60 min Körning av pipelineaktivitet
Kör Databricks-aktivitetsantagande: externa körningstimmar per körning = 10 min 10 min/60 min körning av extern pipelineaktivitet

Prisexempel: Exempel på priskalkylator

Total prissättning för scenario i 30 dagar: 41,03 USD

Skärmbild av priskalkylatorn som konfigurerats för ett scenario med kopieringsdata och transformering med dynamiska parametrar.