Datové sklady a analýzy

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure Table Storage

Tento ukázkový scénář ukazuje datový kanál, který integruje velké objemy dat z více zdrojů do sjednocené analytické platformy v Azure. Tento konkrétní scénář je založený na prodejním a marketingovém řešení, ale vzory návrhu jsou relevantní pro mnoho odvětví vyžadujících pokročilou analýzu velkých datových sad, jako je elektronické obchodování, maloobchod a zdravotnictví.

Architektura

Architecture for a data warehousing and analysis scenario in Azure

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

Data procházejí tímto řešením:

  1. Pro každý zdroj dat se všechny aktualizace pravidelně exportují do pracovní oblasti ve službě Azure Data Lake Storage.
  2. Azure Data Factory přírůstkově načte data z Azure Data Lake Storage do pracovních tabulek ve službě Azure Synapse Analytics. Během tohoto procesu jsou data vyčištěna a transformována. PolyBase může paralelizovat proces pro velké datové sady.
  3. Po načtení nové dávky dat do skladu se aktualizuje dříve vytvořený tabulkový model služby Azure Analysis Services. Tento sémantický model zjednodušuje analýzu obchodních dat a vztahů.
  4. Obchodní analytici používají Microsoft Power BI k analýze skladovaných dat pomocí sémantického modelu Analysis Services.

Komponenty

Společnost má zdroje dat na mnoha různých platformách:

  • Místní SQL Server
  • Místní Oracle
  • Azure SQL Database
  • Azure Table Storage
  • Azure Cosmos DB

Data se načítají z těchto různých zdrojů dat pomocí několika komponent Azure:

  • Azure Data Lake Storage se používá k fázování zdrojových dat před načtením do Azure Synapse.
  • Data Factory orchestruje transformaci fázovaných dat do společné struktury v Azure Synapse. Data Factory používá PolyBase při načítání dat do Azure Synapse k maximalizaci propustnosti.
  • Azure Synapse je distribuovaný systém pro ukládání a analýzu velkých datových sad. Díky použití mpP (Massive Parallel Processing) je vhodný pro spouštění vysoce výkonných analýz. Azure Synapse může pomocí PolyBase rychle načítat data z Azure Data Lake Storage.
  • Analysis Services poskytuje sémantický model pro vaše data. Může také zvýšit výkon systému při analýze dat.
  • Power BI je sada nástrojů pro obchodní analýzy pro analýzu dat a sdílení přehledů. Power BI může dotazovat sémantický model uložený ve službě Analysis Services nebo se může dotazovat přímo na Azure Synapse.
  • Id Microsoft Entra ověřuje uživatele, kteří se připojují k serveru Analysis Services prostřednictvím Power BI. Data Factory může také použít Microsoft Entra ID k ověření ve službě Azure Synapse prostřednictvím instančního objektu nebo spravované identity pro prostředky Azure.

Alternativy

  • Ukázkový kanál obsahuje několik různých druhů zdrojů dat. Tato architektura dokáže zpracovávat širokou škálu relačních a nerelačních zdrojů dat.

  • Data Factory orchestruje pracovní postupy pro váš datový kanál. Pokud chcete načíst data jenom jednou nebo na vyžádání, můžete k kopírování dat do Azure Data Lake Storage použít nástroje, jako je hromadné kopírování SQL Serveru (bcp) a AzCopy. Pak můžete data načíst přímo do Azure Synapse pomocí PolyBase.

  • Pokud máte velmi velké datové sady, zvažte použití Data Lake Storage, které poskytuje neomezené úložiště pro analytická data.

  • Azure Synapse není vhodný pro úlohy OLTP nebo datové sady menší než 250 GB. V těchto případech byste měli použít Azure SQL Database nebo SQL Server.

  • Porovnání jiných alternativ najdete tady:

Podrobnosti scénáře

Tento příklad ukazuje prodejní a marketingovou společnost, která vytváří programy pobídek. Tyto programy odměňují zákazníky, dodavatele, prodejce a zaměstnance. Data jsou pro tyto programy zásadní a společnost chce zlepšit přehledy získané prostřednictvím analýzy dat pomocí Azure.

Společnost potřebuje moderní přístup k analýze dat, aby rozhodnutí používala správná data ve správný čas. Mezi cíle společnosti patří:

  • Kombinování různých druhů zdrojů dat do cloudové platformy
  • Transformace zdrojových dat na společnou taxonomii a strukturu, aby byla data konzistentní a snadno porovnávaná.
  • Načítání dat pomocí vysoce paralelizovaného přístupu, který může podporovat tisíce programů pobídek bez vysokých nákladů na nasazení a údržbu místní infrastruktury.
  • Výrazně zkracuje dobu potřebnou ke shromažďování a transformaci dat, abyste se mohli zaměřit na analýzu dat.

Potenciální případy použití

Tento přístup lze použít také k:

  • Vytvořte datový sklad tak, aby byl jediným zdrojem pravdy pro vaše data.
  • Integrujte relační zdroje dat s jinými nestrukturovanými datovými sadami.
  • Pro jednodušší analýzu dat používejte sémantické modelování a výkonné vizualizační nástroje.

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Technologie v této architektuře byly vybrány, protože splňovaly požadavky společnosti na škálovatelnost a dostupnost a zároveň jim pomohly řídit náklady.

Optimalizace nákladů

Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

Projděte si ukázku cen pro scénář datového skladu prostřednictvím cenové kalkulačky Azure. Upravte hodnoty, abyste viděli, jak vaše požadavky ovlivňují vaše náklady.

  • Azure Synapse umožňuje nezávisle škálovat výpočetní prostředky a úrovně úložiště. Výpočetní prostředky se účtují každou hodinu a tyto prostředky můžete škálovat nebo pozastavit na vyžádání. Prostředky úložiště se účtují na terabajt, takže se vaše náklady zvýší, jakmile ingestujete další data.
  • Náklady na data Factory vycházejí z počtu operací čtení a zápisu, operací monitorování a aktivit orchestrace provedených v úloze. Náklady na službu Data Factory se zvýší s každým dalším datovým proudem a objemem dat zpracovaných jednotlivými datovými proudy.
  • Služba Analysis Services je dostupná na úrovních Developer, Basic a Standard. Instance jsou ceny založené na jednotkách zpracování dotazů (QPU) a dostupné paměti. Pokud chcete snížit náklady, minimalizujte počet spuštěných dotazů, kolik dat zpracovávají a jak často se provozují.
  • Power BI nabízí různé možnosti produktu pro různé požadavky. Power BI Embedded poskytuje možnost založenou na Azure pro vkládání funkcí Power BI do vašich aplikací. Instance Power BI Embedded je součástí výše uvedené ukázky cen.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byl napsán následujícím přispěvatelem.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky