Ez a cikk egy kezelhető megoldást mutat be a nagy mennyiségű térinformatikai adat elemzéshez való elérhetővé tételéhez.
Felépítés
Töltse le az architektúra Visio-fájlját.
A diagram több szürke mezőt tartalmaz, mindegyik más címkével. Balról jobbra a címkék az Ingest, a Prepare, a Load, a Serve és a Visualize és a Visualize. A többi alatt lévő utolsó dobozon látható a Monitor és a Secure felirat. Minden mező ikonokat tartalmaz, amelyek különböző Azure-szolgáltatásokat jelölnek. A számozott nyilak a diagram magyarázatában leírt módon kötik össze a mezőket.
Munkafolyamat
Az IoT-adatok belépnek a rendszerbe:
- Az Azure Event Hubs betölti az IoT-adatok streameit. Az adatok olyan koordinátákat vagy egyéb információkat tartalmaznak, amelyek azonosítják az eszközök helyét.
- Az Event Hubs az Azure Databrickset használja a kezdeti streamfeldolgozáshoz.
- Az Event Hubs az adatokat az Azure Data Lake Storage-ban tárolja.
A GIS-adatok belépnek a rendszerbe:
Az Azure Data Factory betölti a raszterES GIS-adatokat és a vektorOS GIS-adatokat bármilyen formátumban.
- A raszteradatok értékrácsokból állnak. Minden képpontérték egy olyan jellemzőt jelöl, mint egy földrajzi terület hőmérséklete vagy emelkedése.
- A vektoradatok konkrét földrajzi jellemzőket jelölnek. Csúcsok vagy diszkrét geometriai helyek alkotják a vektorokat, és meghatározzák az egyes térbeli objektumok alakját.
A Data Factory az adatokat a Data Lake Storage-ban tárolja.
Az Azure Databricks Spark-fürtöi térinformatikai kódtárakat használnak az adatok átalakításához és normalizálásához.
A Data Factory betölti az előkészített vektor- és raszteradatokat az Azure Database for PostgreSQL-be. A megoldás a PostGIS bővítményt használja ezzel az adatbázissal.
A Data Factory betölti az előkészített vektor- és raszteradatokat az Azure Data Explorerbe.
Az Azure Database for PostgreSQL tárolja a GIS-adatokat. Az API-k szabványosított formátumban teszik elérhetővé ezeket az adatokat:
- A GeoJSON a JavaScript Object Notation (JSON) függvényen alapul. A GeoJSON egyszerű földrajzi jellemzőket és nem térbeli tulajdonságokat jelöl.
- A jól ismert szöveg (WKT) egy olyan szövegjelölő nyelv, amely vektorgeometriai objektumokat jelöl.
- A vektorcsempék földrajzi adatok csomagjai. Egyszerűsített formátumuk javítja a leképezési teljesítményt.
A Redis-gyorsítótár javítja a teljesítményt azáltal, hogy gyors hozzáférést biztosít az adatokhoz.
A Azure-alkalmazás Szolgáltatás Web Apps szolgáltatása az Azure Térképek-nal együttműködve vizualizációkat hoz létre az adatokból.
A felhasználók az Azure Data Explorerrel elemzik az adatokat. Az eszköz GIS-funkciói éleslátó vizualizációkat hoznak létre. Ilyen például pontdiagramok létrehozása térinformatikai adatokból.
A Power BI testreszabott jelentéseket és üzleti intelligenciát (BI) biztosít. A Power BI-hoz készült Azure Térképek vizualizáció kiemeli a helyadatok szerepét az üzleti eredményekben.
A folyamat során:
- Az Azure Monitor adatokat gyűjt az eseményekről és a teljesítményről.
- A Log Analytics lekérdezéseket futtat a monitorozási naplókon, és elemzi az eredményeket.
- Az Azure Key Vault biztosítja a jelszavakat, kapcsolati sztring és titkos kulcsokat.
Összetevők
Az Azure Event Hubs egy teljes mértékben felügyelt streamelési platform big data-adatokhoz. Ez a szolgáltatásként nyújtott platform (PaaS) particionált fogyasztói modellt kínál. Több alkalmazás is használhatja ezt a modellt az adatfolyam egyidejű feldolgozásához.
Az Azure Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik együtt. Ezzel a teljes mértékben felügyelt, kiszolgáló nélküli platformmal adatátalakítási munkafolyamatokat hozhat létre, ütemezhet és vezényelhet.
Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök több forrásból származó nagy adatstreameket dolgoznak fel. Az Azure Databricks nagy léptékben képes átalakítani a térinformatikai adatokat elemzési és adatvizualizációs célokra.
A Data Lake Storage egy méretezhető és biztonságos data lake a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok általában több, heterogén forrásból származnak, és strukturálhatók, részben strukturálhatók vagy strukturálatlanok.
Az Azure Database for PostgreSQL egy teljes körűen felügyelt relációsadatbázis-szolgáltatás, amely a nyílt forráskódú PostgreSQL-adatbázismotor közösségi kiadásán alapul.
A PostGIS a GIS-kiszolgálókkal integrálható PostgreSQL-adatbázis bővítménye. A PostGIS képes olyan SQL-hely lekérdezéseket futtatni, amelyek földrajzi objektumokat is érintenek.
A Redis egy nyílt forráskódú, memórián belüli adattár. A Redis-gyorsítótárak a kiszolgáló memóriájában tartják a gyakran használt adatokat. A gyorsítótárak ezután gyorsan feldolgozhatják az adatokat használó nagy mennyiségű alkalmazáskérést.
A Power BI szoftverszolgáltatások és alkalmazások gyűjteménye. A Power BI használatával összekapcsolhatja a nem kapcsolódó adatforrásokat, és vizualizációkat hozhat létre belőlük.
A Power BI-hoz készült Azure Térképek vizualizáció lehetővé teszi a térképek térbeli adatokkal való bővítését. Ezzel a vizualizációval bemutatja, hogy a helyadatok hogyan befolyásolják az üzleti metrikákat.
A Azure-alkalmazás Szolgáltatás és a Web Apps szolgáltatás keretrendszert biztosít a webalkalmazások létrehozásához, üzembe helyezéséhez és méretezéséhez. Az App Service platform beépített infrastruktúra-karbantartást, biztonsági javításokat és skálázást kínál.
Az Azure-beli GIS-adat API-k Térképek a térképadatokat olyan formátumban tárolják és kérik le, mint a GeoJSON és a vektorcsempék.
Az Azure Data Explorer egy gyors, teljes körűen felügyelt adatelemzési szolgáltatás, amely nagy mennyiségű adattal használható. Ez a szolgáltatás eredetileg az idősorokra és a naplóelemzésre összpontosított. Mostantól az alkalmazások, webhelyek, IoT-eszközök és más források különböző adatfolyamait is kezeli. Az Azure Data Explorer térinformatikai funkciói lehetővé teszik a térképadatok megjelenítését.
Az Azure Monitor adatokat gyűjt a környezetekről és az Azure-erőforrásokról. Ez a diagnosztikai információ hasznos a rendelkezésre állás és a teljesítmény fenntartásához. A Monitort két adatplatform alkotja:
- Az Azure Monitor naplói rögzítik és tárolják a napló- és teljesítményadatokat.
- Az Azure Monitor-metrikák rendszeres időközönként gyűjtik a numerikus értékeket.
A Log Analytics egy Azure Portal-eszköz, amely lekérdezéseket futtat a Naplóadatok monitorozása szolgáltatásban. A Log Analytics emellett a lekérdezési eredmények diagramkészítéséhez és statisztikai elemzéséhez is kínál funkciókat.
A Key Vault tárolja és szabályozza a titkos kulcsokhoz, például jogkivonatokhoz, jelszavakhoz és API-kulcsokhoz való hozzáférést. A Key Vault emellett titkosítási kulcsokat is létrehoz és szabályoz, valamint kezeli a biztonsági tanúsítványokat.
Alternatívák
Ahelyett, hogy saját API-kat fejlesztenek, fontolja meg a Martin használatát. Ez a nyílt forráskódú csempekiszolgáló elérhetővé teszi a vektorcsempéket a webalkalmazások számára. A Rustban írt Martin a PostgreSQL-táblákhoz csatlakozik. Tárolóként is üzembe helyezheti.
Ha a gis-adatok szabványosított felületének biztosítása a cél, fontolja meg a GeoServer használatát. Ez a nyílt keretrendszer az iparági szabványnak megfelelő Open Geospatial Consortium (OGC) protokollokat implementálja, például a Web Feature Service -t (WFS). A közös térbeli adatforrásokkal is integrálható. A GeoServert tárolóként helyezheti üzembe egy virtuális gépen. Ha a testre szabott webalkalmazások és a felderítő lekérdezések másodlagosak, a GeoServer egyszerű módot kínál a térinformatikai adatok közzétételére.
Különböző Spark-kódtárak érhetők el az Azure Databricks térinformatikai adatainak kezeléséhez. Ez a megoldás a következő kódtárakat használja:
De más megoldások is léteznek a térinformatikai számítási feladatok Azure Databricks-lel való feldolgozására és skálázására.
A vektorcsempék hatékonyan jelenítik meg a GIS-adatokat a térképeken. Ez a megoldás a PostGIS használatával dinamikusan kérdezi le a vektorcsempéket. Ez a megközelítés jól működik az 1 milliónál jóval több rekordot tartalmazó egyszerű lekérdezésekhez és eredményhalmazokhoz. A következő esetekben azonban jobb lehet egy másik megközelítés:
- A lekérdezések számításilag költségesek.
- Az adatok nem változnak gyakran.
- Nagy adatkészleteket jelenít meg.
Ilyen esetekben fontolja meg a Tippecanoe használatát vektorcsempék létrehozásához. A Tippecanoe-t az adatfeldolgozási folyamat részeként futtathatja tárolóként vagy az Azure Functions használatával. Az eredményként kapott csempéket API-k segítségével elérhetővé teheti.
Az Event Hubshoz hasonlóan az Azure IoT Hub is nagy mennyiségű adatot képes betölteni. Az IoT Hub azonban kétirányú kommunikációs képességeket is kínál az eszközökkel. Ha közvetlenül az eszközökről fogad adatokat, de parancsokat és szabályzatokat is küld vissza az eszközökre, vegye figyelembe az IoT Hubot az Event Hubs helyett.
A megoldás egyszerűsítése érdekében hagyja ki az alábbi összetevőket:
- Azure Data Explorer
- Power BI
Forgatókönyv részletei
Számos lehetőség áll rendelkezésre a térinformatikai adatok vagy egy földrajzi összetevőt tartalmazó információk kezeléséhez. A földrajzi információs rendszer (GIS) szoftverei és szabványai például széles körben elérhetők. Ezek a technológiák képesek tárolni, feldolgozni és hozzáférést biztosítani a térinformatikai adatokhoz. Gyakran azonban nehéz konfigurálni és karbantartani a térinformatikai adatokkal működő rendszereket. Ezen rendszerek más rendszerekkel való integrálásához szakértői ismeretekre is szüksége van.
Ez a cikk egy kezelhető megoldást mutat be a nagy mennyiségű térinformatikai adat elemzéshez való elérhetővé tételéhez. A megközelítés az Advanced Analytics referenciaarchitektúráján alapul, és az alábbi Azure-szolgáltatásokat használja:
- A GIS Spark-kódtárakkal rendelkező Azure Databricks feldolgozza az adatokat.
- Az Azure Database for PostgreSQL az API-kon keresztül lekérdezi a felhasználók által kért adatokat.
- Az Azure Data Explorer gyors felderítő lekérdezéseket futtat.
- Az Azure Térképek a térinformatikai adatok vizualizációit hozza létre webalkalmazásokban.
- A Power BI Azure Térképek Power BI-vizualizációs funkciója testreszabott jelentéseket biztosít
Lehetséges használati esetek
Ez a megoldás számos területre vonatkozik:
- Nagy mennyiségű raszteres adat, például térképek vagy éghajlati adatok feldolgozása, tárolása és hozzáférésének biztosítása.
- A vállalati erőforrás-tervezés (ERP) rendszerentitások földrajzi helyzetének azonosítása.
- Entitáshelyadatok és GIS-referenciaadatok kombinálása.
- Eszközök internetes telemetriájának (IoT) tárolása mozgó eszközökről.
- Elemzési térinformatikai lekérdezések futtatása.
- Válogatott és környezetfüggő térinformatikai adatok beágyazása webalkalmazásokba.
Considerations
A microsoft azure well-architected keretrendszeren alapuló alábbi szempontok vonatkoznak erre a megoldásra.
Elérhetőség
Az Event Hubs a hibák kockázatát a fürtökre osztva szórja.
- Használjon olyan névteret, amelyen be van kapcsolva a rendelkezésre állási zónák, hogy a kockázat három fizikailag elkülönített létesítményre terjedjen ki.
- Fontolja meg az Event Hubs geo-vészhelyreállítási funkciójának használatát. Ez a funkció replikálja egy névtér teljes konfigurációját egy elsődlegesről egy másodlagos névtérre.
Tekintse meg az Azure Database for PostgreSQL által kínált üzletmenet-folytonossági funkciókat. Ezek a funkciók számos helyreállítási célt fednek le.
Az App Service diagnosztika riasztást küld az alkalmazások problémáira, például az állásidőre. Ezzel a szolgáltatással azonosíthatja, elháríthatja és elháríthatja az olyan problémákat, mint a kimaradások.
Fontolja meg az App Service használatát az alkalmazásfájlok biztonsági mentéséhez. Ügyeljen azonban a biztonsági mentési fájlokra, amelyek egyszerű szövegbe foglalják az alkalmazásbeállításokat. Ezek a beállítások olyan titkos kulcsokat tartalmazhatnak, mint a kapcsolati sztring.
Méretezhetőség
A megoldás implementációja megfelel az alábbi feltételeknek:
- Naponta legfeljebb 10 millió adatkészletet dolgoz fel. Az adathalmazok kötegelt vagy streamelési eseményeket tartalmaznak.
- 100 millió adatkészletet tárol egy Azure Database for PostgreSQL-adatbázisban.
- Egyszerre 1 millió vagy kevesebb adathalmazt lekérdez. A lekérdezéseket legfeljebb 30 felhasználó futtathatja.
A környezet a következő konfigurációt használja:
- Egy Azure Databricks-fürt négy F8s_V2 feldolgozó csomóponttal.
- Az Azure Database for PostgreSQL memóriaoptimalizált példánya.
- App Service-csomag két Standard S2-példánysal.
Vegye figyelembe ezeket a tényezőket annak meghatározásához, hogy milyen módosításokat kell végrehajtania a megvalósításhoz:
- Az adatbetöltés sebessége.
- Az ön adatmennyisége.
- A lekérdezési kötet.
- A támogatni kívánt párhuzamos lekérdezések száma.
Az Azure-összetevők egymástól függetlenül skálázhatók:
Az Event Hubs automatikusan felskálázható a használati igényeknek megfelelően. De lépéseket kell tennie az átviteli egységek kezeléséhez és a partíciók optimalizálásához.
A Data Factory nagy mennyiségű adatot kezel. Kiszolgáló nélküli architektúrája különböző szinteken támogatja a párhuzamosságot.
A Data Lake Storage kialakítás szerint skálázható.
Az Azure Database for PostgreSQL nagy teljesítményű horizontális skálázást kínál.
Az Azure Databricks-fürtök szükség szerint átméretezhetők.
Az Azure Data Explorer percek alatt rugalmasan skálázható több terabájtnyi adatra.
A Monitor automatikus méretezési funkciója skálázási funkciót is biztosít. Ezt a funkciót úgy konfigurálhatja, hogy erőforrásokat adjon hozzá a terhelés növekedésének kezeléséhez. Emellett az erőforrásokat is eltávolíthatja, hogy pénzt takarítson meg.
Biztonság
A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.
Vektorcsempe-adatok védelme. A vektorcsempék koordinátákat és attribútumokat ágyaznak be több entitáshoz egy fájlban. Vektorcsempék létrehozásakor a hozzáférés-vezérlési rendszer minden engedélyszintjéhez használjon dedikált csempéket. Ezzel a módszerrel csak az egyes jogosultsági szinteken belüli felhasználók férhetnek hozzá az adott szint adatfájlhoz.
A biztonság javítása érdekében használja a Key Vaultot az alábbi helyzetekben:
- Az Event Hubs által az adatok titkosításához használt kulcsok kezelése.
- A Data Factory által a folyamatokban használt hitelesítő adatok tárolása.
- Az App Service-webalkalmazás által használt alkalmazásbeállítások és titkos kódok védelme.
A webalkalmazások biztonságossá tételéről az Azure-alkalmazás Service biztonság című témakörében olvashat. Vegye figyelembe az alábbi szempontokat is:
- Megtudhatja , hogyan szerezheti be az alkalmazás által igényelt tanúsítványt, ha egyéni tartománynevet használ.
- Megtudhatja, hogyan irányíthatja át az alkalmazás HTTP-kéréseit a HTTPS-portra.
- Ismerje meg a webalkalmazások hitelesítésének ajánlott eljárásait.
Költségoptimalizálás
A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.
- A megoldás megvalósításának költségeinek becsléséhez tekintse meg a minta költségprofilját. Ez a profil a skálázhatósági szempontokban leírt környezet egyetlen implementációjára használható. Nem tartalmazza az Azure Data Explorer költségeit.
- A paraméterek módosításához és a megoldás környezetbeli futtatásának költségeinek megismeréséhez használja az Azure díjszabási kalkulátorát.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Richard Bumann | Megoldástervező
További lépések
Termékdokumentáció:
- Az Azure Event Hubs ismertetése
- Az Azure Databricks fogalmai
- Az Azure Data Lake Storage bemutatása
- Mi az Az Azure Data Factory?
- Azure-alkalmazás szolgáltatás áttekintése
A megoldás implementálásának megkezdéséhez tekintse meg az alábbi információkat:
- WFS Csatlakozás azure-Térképek
- OpenStreetMap-adatok feldolgozása a Sparkkal.
- Megtudhatja, hogyan jeleníthet meg adatokat az Azure Térképek.
Információ a térinformatikai adatok feldolgozásáról
- Függvények a PostGIS vektorcsempékhez való lekérdezéséhez
- Függvények PostGIS-raszterek betöltéséhez
- Azure Data Explorer térinformatikai függvények
- Adatforrások vektorcsempékhez az Azure Térképek
- Térinformatikai adatok feldolgozásának módszerei a Databricksben
Kapcsolódó erőforrások
Kapcsolódó architektúrák
- Big data-elemzés az Azure Data Explorerrel
- Egészségügyiadat-konzorcium az Azure-ban
- [DataOps a modern adattárházhoz] [DataOps a modern adattárházhoz]
- Interaktív Azure Data Explorer-elemzés
- Térinformatikai referenciaarchitektúra – Azure Orbital
- Térinformatikai elemzés távközléshez
- Spaceborne-adatelemzés az Azure Synapse Analyticsszel
Kapcsolódó útmutatók
- A Microsoft gépi tanulási termékeinek és technológiáinak összehasonlítása – Azure Databricks
- Gépi tanulási műveletek (MLOps) keretrendszere a gépi tanulási életciklus skálázásához az Azure Machine Tanulás
- [Az Azure Machine Tanulás döntési útmutatója az optimális eszközválasztáshoz][Azure Machine Tanulás döntési útmutató az optimális eszközválasztáshoz]
- Az Azure Databricks monitorozása