Cílem tohoto článku je představit praktickou architekturu, která využívá Azure Cloud Services ke zpracování velkých objemů geoprostorových dat. Poskytuje cestu vpřed, když se místní řešení nešklikují. Umožňuje také pokračovat v používání současných nástrojů pro geoprostorovou analýzu.
Apache®, Apache Spark®, GeoSpark® a Sedona® jsou registrované ochranné známky nebo ochranné známky nadace Apache Software Foundation v USA nebo dalších zemích. Použití těchto značek nevyvozuje žádné doporučení ze strany The Apache Software Foundation.
GeoPandas®, QGIS® a ArcGIS® jsou ochranné známky příslušných společností. Použití těchto značek nevyvozuje žádné doporučení.
Architektura
Stáhněte si soubor aplikace Visio s touto architekturou.
Pracovní postup
- Azure Data Factory ingestuje geoprostorová data do Azure Data Lake Storage. Zdrojem těchto dat jsou geoprostorové databáze, jako jsou Teradata, Oracle Spatial a PostgreSQL.
- Azure Key Vault zabezpečuje hesla, přihlašovací údaje, připojovací řetězce a další tajné kódy.
- Data se umísťuje do různých složek a systémů souborů v Data Lake Storage podle toho, jak byla zpracována. Diagram znázorňuje architekturu s více segmenty směrování . Bronzový kontejner obsahuje nezpracovaná data, stříbrný kontejner obsahuje částečně kurátorovaná data a zlatý kontejner obsahuje plně kurátorovaná data.
- Data se ukládají ve formátech, jako jsou dlaždice GeoJson, WKT a Vector. Azure Databricks a balíček GeoSpark/ Sedona dokážou převádět formáty a efektivně načítat, zpracovávat a analyzovat rozsáhlá prostorová data napříč počítači.
- Azure Databricks a Apache Sedona zpracovávají různé druhy ve velkém:
- Spojení, průsečíky a teselace
- Prostorové vzorkování a statistika
- Prostorové indexování a dělení
- GeoPandas exportuje data v různých formátech pro použití aplikacemi GIS třetích stran, jako jsou QGIS a ARCGIS.
- Azure Machine Learning extrahuje přehledy z geoprostorových dat a určuje například, kde a kdy nasadit nové bezdrátové přístupové body.
- Power BI a Azure Maps vizuál Power BI (Preview) vykreslují mapové plátno pro vizualizaci geoprostorových dat. Power BI používá k připojení ke clusteru Azure Databricks nativní konektor Azure Databricks.
- Log Analytics, nástroj v Azure Portal, spouští dotazy na data v protokolech služby Azure Monitor a implementuje robustní a jemně odstupňovaný systém protokolování pro analýzu událostí a výkonu.
Komponenty
- Azure Data Lake Storage je škálovatelné a zabezpečené datové jezero pro úlohy vysoce výkonné analýzy. Pomocí Data Lake Storage můžete spravovat petabajty dat s vysokou propustností. Může obsahovat více heterogenních zdrojů a dat ve strukturovaných, částečně strukturovaných nebo nestrukturovaných formátech.
- Azure Databricks je platforma pro analýzu dat, která používá clustery Spark. Clustery jsou optimalizované pro platformu Azure Cloud Services.
- Azure Data Factory je plně spravovaná, škálovatelná a bezserverová služba integrace dat. Poskytuje vrstvu integrace a transformace dat, která funguje s různými úložišti dat.
- Microsoft Power BI je kolekce softwarových služeb, aplikací a konektorů, které společně proměňují několik zdrojů dat na ucelené, vizuálně imerzivní a interaktivní přehledy.
- Azure Maps je kolekce geoprostorových služeb a sad SDK, které používají čerstvá data mapování k poskytování geografického kontextu webovým a mobilním aplikacím.
- Azure Machine Learning je plně spravovaná cloudová služba, která slouží k trénování, nasazování a správě modelů strojového učení ve velkém měřítku.
- Azure Key Vault je služba, kterou je možné použít k bezpečnému ukládání, správě a těsnému řízení přístupu k tokenům, přihlašovacím údajům, certifikátům, klíčům rozhraní API a dalším tajným klíčům.
- Azure Monitor je komplexní řešení pro shromažďování, analýzu a provádění telemetrických dat z cloudových a místních prostředí. Můžete ho použít k maximalizaci dostupnosti a výkonu vašich aplikací a služeb.
Alternativy
- Fondy Synapse Sparku můžete použít pro geoprostorové analýzy místo Azure Databricks se stejnými opensourcovými architekturami.
- Místo použití služby Data Factory k ingestování dat můžete použít Azure Event Hubs. Může přijímat obrovské objemy dat přímo nebo z jiných služeb streamování událostí, jako je Kafka. Pak můžete data zpracovat pomocí Azure Databricks. Další informace najdete v tématu Zpracování datových proudů pomocí Azure Databricks.
- Místo Azure Databricks můžete k dotazování a zpracování geoprostorových dat použít Azure SQL Database nebo Azure SQL Managed Instance. Tyto databáze poskytují známý jazyk T-SQL, který můžete použít pro geoprostorovou analýzu. Další informace najdete v tématu Prostorová data (SQL Server).
- Stejně jako event hubs může Azure IoT Hub přijímat velké objemy dat ze snímačů a telekomunikačních zařízení IoT. Pomocí IoT Hub obousměrné funkce můžete bezpečně komunikovat se zařízeními a potenciálně je spravovat a ovládat z centralizované platformy v cloudu.
- Azure Maps můžete použít k poskytování geografického kontextu webových a mobilních aplikací. Kromě informací o poloze může Azure Maps vyhledávat služby a vyhledávat adresy, místa a body zájmu, aby získaly informace o provozu v reálném čase. Azure Maps Vizuál Power BI poskytuje stejné funkce v Power BI Desktop i služba Power BI.
Podrobnosti scénáře
Informace o poloze a geoprostorová analýza mohou odhalit důležité regionální trendy a chování, které ovlivňují telekomunikační společnosti. Společnosti mohou tyto znalosti využít ke zlepšení svého rádiového signálu a bezdrátového pokrytí, a získat tak konkurenční výhodu.
Telekomunikační společnosti mají velké objemy geograficky rozptýlených dat o aktivech, z nichž většina je uživatelská telemetrie. Data pocházejí z rádiových sítí, zařízení iot sensing a zařízení pro dálkový průzkum, která zachytávají geoprostorová data. Je v různých strukturovaných a částečně strukturovaných formátech, jako jsou snímky, GPS, satelitní a texturové. Jeho použití vyžaduje jeho agregaci a propojení s dalšími zdroji, jako jsou regionální mapy a data o provozu.
Po agregaci a spojení dat je výzvou extrahovat z nich přehledy. V minulosti se telekomunikační společnosti spoléhaly na starší systémy, jako jsou místní databáze s geoprostorovými funkcemi. Tyto systémy nakonec kvůli stále rostoucímu množství dat narazí na limity škálovatelnosti. Také vyžadují software třetích stran k provádění úloh, které geoprostorové databázové systémy nemohou.
Potenciální případy použití
Toto řešení je ideální pro telekomunikační odvětví a platí pro následující scénáře:
- Analýza informací o signálu v různých umístěních za účelem posouzení kvality sítě
- Analýza dat síťové infrastruktury v reálném čase pro průvodce údržbou a opravami
- Analýza segmentace trhu a poptávky na trhu
- Identifikace vztahů mezi lokalitami zákazníků a firemními marketingovými kampaněmi
- Vytváření plánů kapacity a pokrytí pro zajištění připojení a kvality služeb
Požadavky
Tyto aspekty implementují pilíře azure Well-Architected Framework, což je sada hlavních zásad, které lze použít ke zlepšení kvality úloh. Další informace najdete v tématu Microsoft Azure Well-Architected Framework.
Při implementaci tohoto řešení zvažte použití rozhraní Microsoft Azure Well-Architected Framework . Tento rámec poskytuje technické pokyny napříč pěti pilíři: optimalizace nákladů, zabezpečení, spolehlivost, efektivita výkonu a efektivita provozu.
Výkon
- Postupujte podle programovacích průvodců Apache Sedona a osvědčených postupů pro ladění výkonu a vzorů návrhu.
- Geoprostorové indexování je zásadní pro zpracování rozsáhlých geoprostorových dat. Tuto funkci poskytují Apache Sedona a další opensourcové indexovací architektury, jako je H3 .
- Architektura GeoPandas nemá distribuované funkce GeoSparku nebo Apache Sedony. Proto co nejvíce používejte architekturu Sedona pro geoprostorové zpracování.
- Zvažte použití předdefinovaných funkcí Sedony k ověření formátování geometrie před zpracováním.
Zabezpečení
Zabezpečení poskytuje záruku před úmyslnými útoky a zneužitím vašich cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.
V případě lepšího zabezpečení zvažte následující pokyny:
- Vytvoření rozsahu tajných kódů ve službě Azure Key Vault
- Možnosti zabezpečeného připojení ke clusteru (bez veřejných IP adres / NPIP)
- Uložení přihlašovacích údajů v Azure Key Vault
- Nasazení vyhrazených služeb Azure do virtuálních sítí
- Zvažte použití úrovně Azure Databricks Premium místo úrovně Standard pro další funkce zabezpečení.
- Průvodce zabezpečením Databricks
Optimalizace nákladů
Optimalizace nákladů spočívá v hledání způsobů, jak snížit zbytečné výdaje a zlepšit provozní efektivitu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.
- K odhadu nákladů na implementaci tohoto řešení použijte cenovou kalkulačku Azure pro výše uvedené služby.
- Power BI se dodává s různými nabídkami licencování. Další informace najdete v tématu Ceny Power BI.
- Pokud potřebujete škálovat konfigurace clusteru Azure Databricks, vaše náklady se zvýší. To závisí na množství dat a složitosti analýzy. Osvědčené postupy pro konfiguraci clusteru najdete v tématu Osvědčené postupy pro Azure Databricks : Konfigurace clusteru.
- Způsoby minimalizace nákladů najdete v tématu Přehled pilíře optimalizace nákladů .
- Informace o cenách komponent třetích stran, jako jsou QGIS a ARCGIS, najdete na webech dodavatelů.
- Architektury uvedené v tomto řešení, jako jsou Apache Sedona a GeoPandas, jsou bezplatné opensourcové architektury.
Přispěvatelé
Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.
Hlavní autor:
- Arash Mosharraf | Vedoucí architekt cloudových řešení
Další kroky
- Úvod do Azure Data Lake Storage Gen2
- Co je Power BI?
- Co je služba Azure Maps?
- Co je Azure Machine Learning?
- Informace o službě Azure Key Vault
- Přehled služby Azure Monitor
- ukázky Azure Maps
- kurzy Azure Data Factory
- Průvodci programováním Apache Sedona
- Začínáme s GeoPandas
- Začínáme s GeoMesou
- Zpracování geoprostorových dat ve velkém měřítku pomocí Databricks
- Formáty souborů GIS
- Referenční informace k Apache Sedona
- Přehled systému geoprostorového indexování H3
- Power BI a Esri ArcGIS
- QGIS
- H3: Hexagonální hierarchický geoprostorový indexovací systém
- Jak převést data o roamingu z mobilního telefonu návštěvníka na výnosy?
- Umístění 5G: Co potřebujete vědět