Geoprostorové zpracování a analýzy dat

Azure Data Factory
Azure Data Lake Storage
Azure Database for PostgreSQL
Azure Databricks
Azure Event Hubs

Tento článek popisuje spravovatelné řešení pro zpřístupnění velkých objemů geoprostorových dat pro analýzy.

Architektura

Diagram architektury znázorňující, jak geoprostorová data procházejí systémem Azure Různé komponenty přijímají, zpracovávají, ukládají, analyzují a publikují data.

Stáhněte si soubor Visia této architektury.

Diagram obsahuje několik šedýchpolích Zleva doprava jsou popisky Ingestování, Příprava, Načtení, Obsluha a Vizualizace a zkoumání. Poslední pole pod ostatními obsahuje popisek Monitor a zabezpečený. Každé pole obsahuje ikony, které představují různé služby Azure. Číslované šipky spojují pole způsobem, který popisuje postup v vysvětlení diagramu.

Workflow

  1. Data IoT zadávají systém:

  2. Data GIS zadávají systém:

    • Azure Data Factory ingestuje rastrová data GIS a vektorová data GIS libovolného formátu.

      • Rastrová data se skládají z mřížky hodnot. Každá hodnota pixelu představuje charakteristiku, jako je teplota nebo zvýšení zeměpisné oblasti.
      • Vektorová data představují konkrétní geografické funkce. Vrcholy nebo diskrétní geometrická umístění tvoří vektory a definují tvar každého prostorového objektu.
    • Data Factory ukládá data ve službě Data Lake Storage.

  3. Clustery Spark v Azure Databricks používají k transformaci a normalizaci dat geoprostorové knihovny kódu.

  4. Data Factory načte připravená vektorová a rastrová data do Služby Azure Database for PostgreSQL. Řešení používá rozšíření PostGIS s touto databází.

  5. Data Factory načte připravená vektorová a rastrová data do Azure Data Exploreru.

  6. Azure Database for PostgreSQL ukládá data GIS. Rozhraní API zpřístupní tato data ve standardizovaných formátech:

    • GeoJSON je založená na zápisu json (JavaScript Object Notation). GeoJSON představuje jednoduché geografické vlastnosti a jejich neprostorové vlastnosti.
    • Dobře známý text (WKT) je jazyk pro značky textu, který představuje objekty vektorové geometrie.
    • Vektorové dlaždice jsou pakety geografických dat. Jejich jednoduchý formát zlepšuje výkon mapování.

    Mezipaměť Redis zlepšuje výkon tím, že poskytuje rychlý přístup k datům.

  7. Funkce Web Apps služby Aplikace Azure service spolupracuje s Azure Mapy k vytváření vizuálů dat.

  8. Uživatelé analyzují data pomocí Azure Data Exploreru. Funkce GIS tohoto nástroje vytvářejí přehledné vizualizace. Mezi příklady patří vytváření bodových grafů z geoprostorových dat.

  9. Power BI poskytuje přizpůsobené sestavy a business intelligence (BI). Vizuál Azure Mapy pro Power BI zvýrazní roli dat o poloze ve výsledcích firmy.

V průběhu tohoto procesu:

  • Azure Monitor shromažďuje informace o událostech a výkonu.
  • Log Analytics spouští dotazy na protokoly monitorování a analyzuje výsledky.
  • Azure Key Vault zabezpečuje hesla, připojovací řetězec a tajné kódy.

Komponenty

  • Azure Event Hubs je plně spravovaná platforma streamování pro velké objemy dat. Tato platforma jako služba (PaaS) nabízí model dělených příjemců. Tento model může použít více aplikací ke zpracování datového proudu ve stejnou dobu.

  • Azure Data Factory je integrační služba, která funguje s daty z různorodých úložišť dat. Tuto plně spravovanou bezserverovou platformu můžete použít k vytváření, plánování a orchestraci pracovních postupů transformace dat.

  • Azure Databricks je platforma pro analýzu dat. Jeho plně spravované clustery Spark zpracovávají velké datové proudy dat z více zdrojů. Azure Databricks dokáže transformovat geoprostorová data ve velkém měřítku pro použití v analýzách a vizualizaci dat.

  • Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Tato služba může spravovat více petabajtů informací a současně udržovat stovky gigabitů propustnosti. Data obvykle pocházejí z více heterogenních zdrojů a můžou být strukturovaná, částečně strukturovaná nebo nestrukturovaná.

  • Azure Database for PostgreSQL je plně spravovaná relační databázová služba založená na komunitní edici opensourcového databázového stroje PostgreSQL .

  • PostGIS je rozšíření pro databázi PostgreSQL, která se integruje se servery GIS. PostGIS může spouštět dotazy na umístění SQL, které zahrnují geografické objekty.

  • Redis je opensourcové úložiště dat v paměti. Mezipaměti Redis ukládají často přístupná data v paměti serveru. Mezipaměti pak můžou rychle zpracovávat velké objemy požadavků aplikací, které data používají.

  • Power BI je kolekce softwarových služeb a aplikací. Power BI můžete použít k propojení nesouvisejících zdrojů dat a k vytváření vizuálů.

  • Vizuál Azure Mapy pro Power BI poskytuje způsob, jak vylepšit mapy s prostorovými daty. Tento vizuál můžete použít k zobrazení toho, jak data o poloze ovlivňují obchodní metriky.

  • služba Aplikace Azure a její funkce Web Apps poskytují architekturu pro vytváření, nasazování a škálování webových aplikací. Platforma App Service nabízí integrovanou údržbu infrastruktury, opravy zabezpečení a škálování.

  • Rozhraní API pro data GIS v Azure Mapy ukládají a načítají mapová data ve formátech, jako jsou GeoJSON a vektorové dlaždice.

  • Azure Data Explorer je rychlá plně spravovaná služba pro analýzu dat, která může pracovat s velkými objemy dat. Tato služba se původně zaměřovala na časové řady a log analytics. Teď také zpracovává různorodé datové proudy z aplikací, webů, zařízení IoT a dalších zdrojů. Geoprostorové funkce v Azure Data Exploreru poskytují možnosti pro vykreslování mapových dat.

  • Azure Monitor shromažďuje data o prostředích a prostředcích Azure. Tyto diagnostické informace jsou užitečné pro zachování dostupnosti a výkonu. Monitorování tvoří dvě datové platformy:

    • Záznamy protokolů služby Azure Monitor a ukládají data protokolu a výkonu.
    • Metriky služby Azure Monitor shromažďují číselné hodnoty v pravidelných intervalech.
  • Log Analytics je nástroj webu Azure Portal, který spouští dotazy na monitorování dat protokolů. Log Analytics také poskytuje funkce pro grafy a statisticky analyzující výsledky dotazů.

  • Key Vault ukládá a řídí přístup k tajným kódům, jako jsou tokeny, hesla a klíče rozhraní API. Key Vault také vytváří a řídí šifrovací klíče a spravuje certifikáty zabezpečení.

Alternativy

  • Místo vývoje vlastních rozhraní API zvažte použití Martinu. Tento opensourcový server dlaždic zpřístupňuje vektorové dlaždice webovým aplikacím. Martin se připojuje k tabulkám PostgreSQL v Rustu. Můžete ho nasadit jako kontejner.

  • Pokud vaším cílem je poskytnout standardizované rozhraní pro data GIS, zvažte použití GeoServeru. Tato otevřená architektura implementuje standardní protokoly OGC (Open Geospatial Consortium), jako je například Služba webových funkcí (WFS). Integruje se také s běžnými prostorovými zdroji dat. GeoServer můžete nasadit jako kontejner na virtuálním počítači. Když jsou přizpůsobené webové aplikace a průzkumné dotazy sekundární, GeoServer poskytuje jednoduchý způsob publikování geoprostorových dat.

  • Pro práci s geoprostorovými daty v Azure Databricks jsou k dispozici různé knihovny Sparku. Toto řešení používá tyto knihovny:

    Existují ale i další řešení pro zpracování a škálování geoprostorových úloh pomocí Azure Databricks.

  • Vektorové dlaždice poskytují efektivní způsob zobrazení dat GIS na mapách. Toto řešení používá PostGIS k dynamickému dotazování na vektorové dlaždice. Tento přístup funguje dobře pro jednoduché dotazy a sady výsledků, které obsahují dobře pod 1 milion záznamů. V následujících případech ale může být lepší jiný přístup:

    • Vaše dotazy jsou výpočetně náročné.
    • Vaše data se často nemění.
    • Zobrazujete velké datové sady.

    V těchto situacích zvažte použití tippecanoe k vygenerování vektorových dlaždic. Tippecanoe můžete spustit jako součást toku zpracování dat, a to buď jako kontejner, nebo pomocí Azure Functions. Výsledné dlaždice můžete zpřístupnit prostřednictvím rozhraní API.

  • Podobně jako Event Hubs může Azure IoT Hub ingestovat velké objemy dat. IoT Hub ale také nabízí obousměrné komunikační funkce se zařízeními. Pokud přijímáte data přímo ze zařízení, ale také odesíláte příkazy a zásady zpět do zařízení, zvažte Službu IoT Hub místo služby Event Hubs.

  • Pokud chcete řešení zjednodušit, vynecháte tyto komponenty:

    • Průzkumník dat Azure
    • Power BI

Podrobnosti scénáře

Existuje mnoho možností pro práci s geoprostorovými daty nebo informacemi, které zahrnují geografickou komponentu. Například software a standardy gis (geografický informační systém) jsou široce dostupné. Tyto technologie mohou ukládat, zpracovávat a poskytovat přístup k geoprostorovým datům. Často je ale obtížné konfigurovat a udržovat systémy, které pracují s geoprostorovými daty. K integraci těchto systémů s jinými systémy potřebujete také odborné znalosti.

Tento článek popisuje spravovatelné řešení pro zpřístupnění velkých objemů geoprostorových dat pro analýzy. Přístup je založený na referenční architektuře Advanced Analytics a používá tyto služby Azure:

  • Azure Databricks s knihovnami GIS Spark zpracovává data.
  • Azure Database for PostgreSQL dotazuje data, která uživatelé požadují prostřednictvím rozhraní API.
  • Azure Data Explorer spouští rychlé průzkumné dotazy.
  • Azure Mapy vytváří vizuály geoprostorových dat ve webových aplikacích.
  • Vizuální funkce Azure Mapy Power BI v Power BI poskytuje přizpůsobené sestavy.

Potenciální případy použití

Toto řešení platí pro mnoho oblastí:

  • Zpracování, ukládání a poskytování přístupu k velkým objemům rastrových dat, jako jsou mapy nebo data o klimatu.
  • Identifikace zeměpisné polohy systémových entit plánování zdrojů organizace (ERP).
  • Kombinování dat o poloze entit s referenčními daty GIS
  • Ukládání telemetrie Internetu věcí (IoT) z přesunu zařízení
  • Spouštění analytických geoprostorových dotazů
  • Vkládání kurátorovaných a kontextových geoprostorových dat ve webových aplikacích

Důležité informace

Na toto řešení se vztahují následující aspekty založené na architektuře Microsoft Azure.

Dostupnost

  • Event Hubs rozloží riziko selhání mezi clustery.

    • Pomocí oboru názvů se zapnutými zónami dostupnosti můžete riziko rozdělit mezi tři fyzicky oddělená zařízení.
    • Zvažte použití funkce geografického zotavení po havárii služby Event Hubs. Tato funkce replikuje celou konfiguraci oboru názvů z primárního do sekundárního oboru názvů.
  • Podívejte se na funkce provozní kontinuity, které nabízí Azure Database for PostgreSQL. Tyto funkce pokrývají celou řadu cílů obnovení.

  • Diagnostika služby App Service vás upozorní na problémy v aplikacích, jako je výpadek. Pomocí této služby můžete identifikovat, řešit a řešit problémy, jako jsou výpadky.

  • Zvažte použití služby App Service k zálohování souborů aplikací. U zálohovaných souborů, které zahrnují nastavení aplikace ve formátu prostého textu, ale buďte opatrní. Tato nastavení můžou obsahovat tajné kódy, jako jsou připojovací řetězec.

Škálovatelnost

Implementace tohoto řešení splňuje tyto podmínky:

  • Zpracovává až 10 milionů datových sad za den. Datové sady zahrnují dávkové nebo streamované události.
  • Ukládá 100 milionů datových sad do databáze Azure Database for PostgreSQL.
  • Dotazuje se současně na 1 milion nebo méně datových sad. Dotazy spouští maximálně 30 uživatelů.

Prostředí používá tuto konfiguraci:

  • Cluster Azure Databricks se čtyřmi F8s_V2 pracovními uzly.
  • Instance Azure Database for PostgreSQL optimalizovaná pro paměť.
  • Plán služby App Service se dvěma instancemi Standard S2.

Zvažte tyto faktory, abyste zjistili, které úpravy pro vaši implementaci mají být provedeny:

  • Rychlost příjmu dat.
  • Objem dat.
  • Svazek dotazu.
  • Počet paralelních dotazů, které potřebujete podporovat.

Komponenty Azure můžete škálovat nezávisle:

Funkce automatického škálování monitoru také poskytuje funkce škálování. Tuto funkci můžete nakonfigurovat tak, aby přidávala prostředky pro zpracování nárůstu zatížení. Může také odebrat prostředky, aby se ušetřily peníze.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Optimalizace nákladů

Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

  • Pokud chcete odhadnout náklady na implementaci tohoto řešení, podívejte se na ukázkový profil nákladů. Tento profil je určený pro jednu implementaci prostředí popsaného v aspektech škálovatelnosti. Nezahrnuje náklady na Azure Data Explorer.
  • Pokud chcete upravit parametry a prozkoumat náklady na provoz tohoto řešení ve vašem prostředí, použijte cenovou kalkulačku Azure.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky

Dokumentace k produktu:

Pokud chcete začít s implementací tohoto řešení, přečtěte si tyto informace:

Informace o zpracování geoprostorových dat