Kopírování dat a transformace s dynamickými parametry po hodinách

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto scénáři chcete zkopírovat data z AWS S3 do služby Azure Blob Storage a transformovat pomocí Azure Databricks (s dynamickými parametry ve skriptu) v hodinovém plánu na 8 hodin denně za 30 dnů.

Ceny použité v tomto příkladu jsou hypotetické a nemají za cíl znamenat přesné skutečné ceny. Náklady na čtení a zápis a monitorování se nezobrazují, protože jsou obvykle zanedbatelné a nebudou mít významný vliv na celkové náklady. Spuštění aktivit se také zaokrouhlují na nejbližší 1000 v odhadech cenové kalkulačky.

Podrobnější scénáře a odhad budoucích nákladů na používání služby najdete v cenové kalkulačce Azure.

Konfigurace

Pokud chcete tento scénář provést, musíte vytvořit kanál s následujícími položkami:

  • Jedna aktivita kopírování se vstupní datovou sadou pro kopírování dat, která se mají zkopírovat z AWS S3, výstupní datovou sadu pro data v úložišti Azure.
  • Jedna aktivita vyhledávání pro dynamické předávání parametrů do transformačního skriptu
  • Jedna aktivita Azure Databricks pro transformaci dat
  • Jedna aktivační událost plánu pro spuštění kanálu každou hodinu po dobu 8 hodin za den Když chcete spustit kanál, můžete ho aktivovat okamžitě nebo naplánovat. Kromě samotného kanálu se každá instance triggeru počítá jako jedno spuštění aktivity.

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and lookup activity that flows to a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

Odhad nákladů

Operations Typy a jednotky
Spuštění kanálu 4 Spuštění aktivity na spuštění (1 pro spuštění triggeru, 3 pro spuštění aktivit) = 960 spuštění aktivit, zaokrouhleno nahoru, protože kalkulačka umožňuje pouze přírůstky 1000.
Předpoklad kopírování dat: Hodiny DIU za spuštění = 10 min 10 min \ 60 min * 4 Azure Integration Runtime (výchozí nastavení DIU = 4) Další informace o jednotkách integrace dat a optimalizaci výkonu kopírování najdete v tomto článku.
Předpoklad aktivity vyhledávání: Hodiny aktivity kanálu za spuštění = 1 min 1 min/ 60 min spuštění aktivity kanálu
Předpoklad aktivity Spuštění Databricks: hodiny externího spuštění za spuštění = 10 min 10 min/ 60 min provádění aktivity externího kanálu

Příklad cen: Příklad cenové kalkulačky

Celková cena scénáře za 30 dní: 41,03 Usd

Screenshot of the pricing calculator configured for a copy data and transform with dynamic parameters scenario.