Geoprostorová analýza pro telekomunikační průmysl

Azure Data Factory
Azure Data Lake
Azure Databricks
Azure Machine Learning
Azure Maps

Cílem tohoto článku je představit praktickou architekturu, která využívá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat. Poskytuje cestu vpřed, když se místní řešení nešklikují. Umožňuje také pokračovat v používání současných nástrojů pro geoprostorovou analýzu.

Apache®, Apache Spark®, GeoSpark® a Sedona® jsou registrované ochranné známky nebo ochranné známky nadace Apache Software Foundation v USA nebo dalších zemích. Použití těchto značek nevyvozuje žádné doporučení ze strany The Apache Software Foundation.

GeoPandas®, QGIS® a ArcGIS® jsou ochranné známky příslušných společností. Použití těchto značek nevyvozuje žádné doporučení.

Architektura

Diagram architektury, která používá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat

Stáhněte si soubor aplikace Visio s touto architekturou.

Pracovní postup

  1. Azure Data Factory ingestuje geoprostorová data do Azure Data Lake Storage. Zdrojem těchto dat jsou geoprostorové databáze, jako jsou Teradata, Oracle Spatial a PostgreSQL.
  2. Azure Key Vault zabezpečuje hesla, přihlašovací údaje, připojovací řetězce a další tajné kódy.
  3. Data se umísťuje do různých složek a systémů souborů v Data Lake Storage podle toho, jak byla zpracována. Diagram znázorňuje architekturu s více segmenty směrování . Bronzový kontejner obsahuje nezpracovaná data, stříbrný kontejner obsahuje částečně kurátorovaná data a zlatý kontejner obsahuje plně kurátorovaná data.
  4. Data se ukládají ve formátech, jako jsou dlaždice GeoJson, WKT a Vector. Azure Databricks a balíček GeoSpark/ Sedona dokážou převádět formáty a efektivně načítat, zpracovávat a analyzovat rozsáhlá prostorová data napříč počítači.
  5. Azure Databricks a Apache Sedona zpracovávají různé druhy ve velkém:
    1. Spojení, průsečíky a teselace
    2. Prostorové vzorkování a statistika
    3. Prostorové indexování a dělení
  6. GeoPandas exportuje data v různých formátech pro použití aplikacemi GIS třetích stran, jako jsou QGIS a ARCGIS.
  7. Azure Machine Learning extrahuje přehledy z geoprostorových dat a určuje například, kde a kdy nasadit nové bezdrátové přístupové body.
  8. Power BI a Azure Maps vizuál Power BI (Preview) vykreslují mapové plátno pro vizualizaci geoprostorových dat. Power BI používá k připojení ke clusteru Azure Databricks nativní konektor Azure Databricks.
  9. Log Analytics, nástroj v Azure Portal, spouští dotazy na data v protokolech služby Azure Monitor a implementuje robustní a jemně odstupňovaný systém protokolování pro analýzu událostí a výkonu.

Komponenty

  • Azure Data Lake Storage je škálovatelné a zabezpečené datové jezero pro úlohy vysoce výkonné analýzy. Pomocí Data Lake Storage můžete spravovat petabajty dat s vysokou propustností. Může obsahovat více heterogenních zdrojů a dat ve strukturovaných, částečně strukturovaných nebo nestrukturovaných formátech.
  • Azure Databricks je platforma pro analýzu dat, která používá clustery Spark. Clustery jsou optimalizované pro platformu Azure Cloud Services.
  • Azure Data Factory je plně spravovaná, škálovatelná a bezserverová služba integrace dat. Poskytuje vrstvu integrace a transformace dat, která funguje s různými úložišti dat.
  • Microsoft Power BI je kolekce softwarových služeb, aplikací a konektorů, které společně proměňují několik zdrojů dat na ucelené, vizuálně imerzivní a interaktivní přehledy.
  • Azure Maps je kolekce geoprostorových služeb a sad SDK, které používají čerstvá data mapování k poskytování geografického kontextu webovým a mobilním aplikacím.
  • Azure Machine Learning je plně spravovaná cloudová služba, která slouží k trénování, nasazování a správě modelů strojového učení ve velkém měřítku.
  • Azure Key Vault je služba, kterou je možné použít k bezpečnému ukládání, správě a těsnému řízení přístupu k tokenům, přihlašovacím údajům, certifikátům, klíčům rozhraní API a dalším tajným klíčům.
  • Azure Monitor je komplexní řešení pro shromažďování, analýzu a provádění telemetrických dat z cloudových a místních prostředí. Můžete ho použít k maximalizaci dostupnosti a výkonu vašich aplikací a služeb.

Alternativy

  • Fondy Synapse Sparku můžete použít pro geoprostorové analýzy místo Azure Databricks se stejnými opensourcovými architekturami.
  • Místo použití služby Data Factory k ingestování dat můžete použít Azure Event Hubs. Může přijímat obrovské objemy dat přímo nebo z jiných služeb streamování událostí, jako je Kafka. Pak můžete data zpracovat pomocí Azure Databricks. Další informace najdete v tématu Zpracování datových proudů pomocí Azure Databricks.
  • Místo Azure Databricks můžete k dotazování a zpracování geoprostorových dat použít Azure SQL Database nebo Azure SQL Managed Instance. Tyto databáze poskytují známý jazyk T-SQL, který můžete použít pro geoprostorovou analýzu. Další informace najdete v tématu Prostorová data (SQL Server).
  • Stejně jako event hubs může Azure IoT Hub přijímat velké objemy dat ze snímačů a telekomunikačních zařízení IoT. Pomocí IoT Hub obousměrné funkce můžete bezpečně komunikovat se zařízeními a potenciálně je spravovat a ovládat z centralizované platformy v cloudu.
  • Azure Maps můžete použít k poskytování geografického kontextu webových a mobilních aplikací. Kromě informací o poloze může Azure Maps vyhledávat služby a vyhledávat adresy, místa a body zájmu, aby získaly informace o provozu v reálném čase. Azure Maps Vizuál Power BI poskytuje stejné funkce v Power BI Desktop i služba Power BI.

Podrobnosti scénáře

Informace o poloze a geoprostorová analýza mohou odhalit důležité regionální trendy a chování, které ovlivňují telekomunikační společnosti. Společnosti mohou tyto znalosti využít ke zlepšení svého rádiového signálu a bezdrátového pokrytí, a získat tak konkurenční výhodu.

Telekomunikační společnosti mají velké objemy geograficky rozptýlených dat o aktivech, z nichž většina je uživatelská telemetrie. Data pocházejí z rádiových sítí, zařízení iot sensing a zařízení pro dálkový průzkum, která zachytávají geoprostorová data. Je v různých strukturovaných a částečně strukturovaných formátech, jako jsou snímky, GPS, satelitní a texturové. Jeho použití vyžaduje jeho agregaci a propojení s dalšími zdroji, jako jsou regionální mapy a data o provozu.

Po agregaci a spojení dat je výzvou extrahovat z nich přehledy. V minulosti se telekomunikační společnosti spoléhaly na starší systémy, jako jsou místní databáze s geoprostorovými funkcemi. Tyto systémy nakonec kvůli stále rostoucímu množství dat narazí na limity škálovatelnosti. Také vyžadují software třetích stran k provádění úloh, které geoprostorové databázové systémy nemohou.

Potenciální případy použití

Toto řešení je ideální pro telekomunikační odvětví a platí pro následující scénáře:

  • Analýza informací o signálu v různých umístěních za účelem posouzení kvality sítě
  • Analýza dat síťové infrastruktury v reálném čase pro průvodce údržbou a opravami
  • Analýza segmentace trhu a poptávky na trhu
  • Identifikace vztahů mezi lokalitami zákazníků a firemními marketingovými kampaněmi
  • Vytváření plánů kapacity a pokrytí pro zajištění připojení a kvality služeb

Požadavky

Tyto aspekty implementují pilíře azure Well-Architected Framework, což je sada hlavních zásad, které lze použít ke zlepšení kvality úloh. Další informace najdete v tématu Microsoft Azure Well-Architected Framework.

Při implementaci tohoto řešení zvažte použití rozhraní Microsoft Azure Well-Architected Framework . Tento rámec poskytuje technické pokyny napříč pěti pilíři: optimalizace nákladů, zabezpečení, spolehlivost, efektivita výkonu a efektivita provozu.

Výkon

  • Postupujte podle programovacích průvodců Apache Sedona a osvědčených postupů pro ladění výkonu a vzorů návrhu.
  • Geoprostorové indexování je zásadní pro zpracování rozsáhlých geoprostorových dat. Tuto funkci poskytují Apache Sedona a další opensourcové indexovací architektury, jako je H3 .
  • Architektura GeoPandas nemá distribuované funkce GeoSparku nebo Apache Sedony. Proto co nejvíce používejte architekturu Sedona pro geoprostorové zpracování.
  • Zvažte použití předdefinovaných funkcí Sedony k ověření formátování geometrie před zpracováním.

Zabezpečení

Zabezpečení poskytuje záruku před úmyslnými útoky a zneužitím vašich cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

V případě lepšího zabezpečení zvažte následující pokyny:

Optimalizace nákladů

Optimalizace nákladů spočívá v hledání způsobů, jak snížit zbytečné výdaje a zlepšit provozní efektivitu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

  • K odhadu nákladů na implementaci tohoto řešení použijte cenovou kalkulačku Azure pro výše uvedené služby.
  • Power BI se dodává s různými nabídkami licencování. Další informace najdete v tématu Ceny Power BI.
  • Pokud potřebujete škálovat konfigurace clusteru Azure Databricks, vaše náklady se zvýší. To závisí na množství dat a složitosti analýzy. Osvědčené postupy pro konfiguraci clusteru najdete v tématu Osvědčené postupy pro Azure Databricks : Konfigurace clusteru.
  • Způsoby minimalizace nákladů najdete v tématu Přehled pilíře optimalizace nákladů .
  • Informace o cenách komponent třetích stran, jako jsou QGIS a ARCGIS, najdete na webech dodavatelů.
  • Architektury uvedené v tomto řešení, jako jsou Apache Sedona a GeoPandas, jsou bezplatné opensourcové architektury.

Přispěvatelé

Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.

Hlavní autor:

Další kroky