Térinformatikai adatfeldolgozás és -elemzés

Azure Data Factory
Azure Data Lake Storage
Azure Database for PostgreSQL
Azure Databricks
Azure Event Hubs

Ez a cikk egy kezelhető megoldást mutat be a nagy mennyiségű térinformatikai adat elemzéshez való elérhetővé tételéhez.

Felépítés

Architecture diagram showing how geospatial data flows through an Azure system. Various components receive, process, store, analyze, and publish the data.

Töltse le az architektúra Visio-fájlját.

A diagram több szürke mezőt tartalmaz, mindegyik más címkével. Balról jobbra a címkék az Ingest, a Prepare, a Load, a Serve és a Visualize és a Visualize. A többi alatt lévő utolsó dobozon látható a Monitor és a Secure felirat. Minden mező ikonokat tartalmaz, amelyek különböző Azure-szolgáltatásokat jelölnek. A számozott nyilak a diagram magyarázatában leírt módon kötik össze a mezőket.

Munkafolyamat

  1. Az IoT-adatok belépnek a rendszerbe:

    • Az Azure Event Hubs betölti az IoT-adatok streameit. Az adatok olyan koordinátákat vagy egyéb információkat tartalmaznak, amelyek azonosítják az eszközök helyét.
    • Az Event Hubs az Azure Databrickset használja a kezdeti streamfeldolgozáshoz.
    • Az Event Hubs az adatokat az Azure Data Lake Storage-ban tárolja.
  2. A GIS-adatok belépnek a rendszerbe:

    • Az Azure Data Factory betölti a raszterES GIS-adatokat és a vektorOS GIS-adatokat bármilyen formátumban.

      • A raszteradatok értékrácsokból állnak. Minden képpontérték egy olyan jellemzőt jelöl, mint egy földrajzi terület hőmérséklete vagy emelkedése.
      • A vektoradatok konkrét földrajzi jellemzőket jelölnek. Csúcsok vagy diszkrét geometriai helyek alkotják a vektorokat, és meghatározzák az egyes térbeli objektumok alakját.
    • A Data Factory az adatokat a Data Lake Storage-ban tárolja.

  3. Az Azure Databricks Spark-fürtöi térinformatikai kódtárakat használnak az adatok átalakításához és normalizálásához.

  4. A Data Factory betölti az előkészített vektor- és raszteradatokat az Azure Database for PostgreSQL-be. A megoldás a PostGIS bővítményt használja ezzel az adatbázissal.

  5. A Data Factory betölti az előkészített vektor- és raszteradatokat az Azure Data Explorerbe.

  6. Az Azure Database for PostgreSQL tárolja a GIS-adatokat. Az API-k szabványosított formátumban teszik elérhetővé ezeket az adatokat:

    • A GeoJSON a JavaScript Object Notation (JSON) függvényen alapul. A GeoJSON egyszerű földrajzi jellemzőket és nem térbeli tulajdonságokat jelöl.
    • A jól ismert szöveg (WKT) egy olyan szövegjelölő nyelv, amely vektorgeometriai objektumokat jelöl.
    • A vektorcsempék földrajzi adatok csomagjai. Egyszerűsített formátumuk javítja a leképezési teljesítményt.

    A Redis-gyorsítótár javítja a teljesítményt azáltal, hogy gyors hozzáférést biztosít az adatokhoz.

  7. A Azure-alkalmazás Szolgáltatás Web Apps szolgáltatása az Azure Térképek-nal együttműködve vizualizációkat hoz létre az adatokból.

  8. A felhasználók az Azure Data Explorerrel elemzik az adatokat. Az eszköz GIS-funkciói éleslátó vizualizációkat hoznak létre. Ilyen például pontdiagramok létrehozása térinformatikai adatokból.

  9. A Power BI testreszabott jelentéseket és üzleti intelligenciát (BI) biztosít. A Power BI-hoz készült Azure Térképek vizualizáció kiemeli a helyadatok szerepét az üzleti eredményekben.

A folyamat során:

  • Az Azure Monitor adatokat gyűjt az eseményekről és a teljesítményről.
  • A Log Analytics lekérdezéseket futtat a monitorozási naplókon, és elemzi az eredményeket.
  • Az Azure Key Vault biztosítja a jelszavakat, kapcsolati sztring és titkos kulcsokat.

Összetevők

  • Az Azure Event Hubs egy teljes mértékben felügyelt streamelési platform big data-adatokhoz. Ez a szolgáltatásként nyújtott platform (PaaS) particionált fogyasztói modellt kínál. Több alkalmazás is használhatja ezt a modellt az adatfolyam egyidejű feldolgozásához.

  • Az Azure Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik együtt. Ezzel a teljes mértékben felügyelt, kiszolgáló nélküli platformmal adatátalakítási munkafolyamatokat hozhat létre, ütemezhet és vezényelhet.

  • Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök több forrásból származó nagy adatstreameket dolgoznak fel. Az Azure Databricks nagy léptékben képes átalakítani a térinformatikai adatokat elemzési és adatvizualizációs célokra.

  • A Data Lake Storage egy méretezhető és biztonságos data lake a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok általában több, heterogén forrásból származnak, és strukturálhatók, részben strukturálhatók vagy strukturálatlanok.

  • Az Azure Database for PostgreSQL egy teljes körűen felügyelt relációsadatbázis-szolgáltatás, amely a nyílt forráskódú PostgreSQL-adatbázismotor közösségi kiadásán alapul.

  • A PostGIS a GIS-kiszolgálókkal integrálható PostgreSQL-adatbázis bővítménye. A PostGIS képes olyan SQL-hely lekérdezéseket futtatni, amelyek földrajzi objektumokat is érintenek.

  • A Redis egy nyílt forráskódú, memórián belüli adattár. A Redis-gyorsítótárak a kiszolgáló memóriájában tartják a gyakran használt adatokat. A gyorsítótárak ezután gyorsan feldolgozhatják az adatokat használó nagy mennyiségű alkalmazáskérést.

  • A Power BI szoftverszolgáltatások és alkalmazások gyűjteménye. A Power BI használatával összekapcsolhatja a nem kapcsolódó adatforrásokat, és vizualizációkat hozhat létre belőlük.

  • A Power BI-hoz készült Azure Térképek vizualizáció lehetővé teszi a térképek térbeli adatokkal való bővítését. Ezzel a vizualizációval bemutatja, hogy a helyadatok hogyan befolyásolják az üzleti metrikákat.

  • A Azure-alkalmazás Szolgáltatás és a Web Apps szolgáltatás keretrendszert biztosít a webalkalmazások létrehozásához, üzembe helyezéséhez és méretezéséhez. Az App Service platform beépített infrastruktúra-karbantartást, biztonsági javításokat és skálázást kínál.

  • Az Azure-beli GIS-adat API-k Térképek a térképadatokat olyan formátumban tárolják és kérik le, mint a GeoJSON és a vektorcsempék.

  • Az Azure Data Explorer egy gyors, teljes körűen felügyelt adatelemzési szolgáltatás, amely nagy mennyiségű adattal használható. Ez a szolgáltatás eredetileg az idősorokra és a naplóelemzésre összpontosított. Mostantól az alkalmazások, webhelyek, IoT-eszközök és más források különböző adatfolyamait is kezeli. Az Azure Data Explorer térinformatikai funkciói lehetővé teszik a térképadatok megjelenítését.

  • Az Azure Monitor adatokat gyűjt a környezetekről és az Azure-erőforrásokról. Ez a diagnosztikai információ hasznos a rendelkezésre állás és a teljesítmény fenntartásához. A Monitort két adatplatform alkotja:

  • A Log Analytics egy Azure Portal-eszköz, amely lekérdezéseket futtat a Naplóadatok monitorozása szolgáltatásban. A Log Analytics emellett a lekérdezési eredmények diagramkészítéséhez és statisztikai elemzéséhez is kínál funkciókat.

  • A Key Vault tárolja és szabályozza a titkos kulcsokhoz, például jogkivonatokhoz, jelszavakhoz és API-kulcsokhoz való hozzáférést. A Key Vault emellett titkosítási kulcsokat is létrehoz és szabályoz, valamint kezeli a biztonsági tanúsítványokat.

Alternatívák

  • Ahelyett, hogy saját API-kat fejlesztenek, fontolja meg a Martin használatát. Ez a nyílt forráskódú csempekiszolgáló elérhetővé teszi a vektorcsempéket a webalkalmazások számára. A Rustban írt Martin a PostgreSQL-táblákhoz csatlakozik. Tárolóként is üzembe helyezheti.

  • Ha a gis-adatok szabványosított felületének biztosítása a cél, fontolja meg a GeoServer használatát. Ez a nyílt keretrendszer az iparági szabványnak megfelelő Open Geospatial Consortium (OGC) protokollokat implementálja, például a Web Feature Service -t (WFS). A közös térbeli adatforrásokkal is integrálható. A GeoServert tárolóként helyezheti üzembe egy virtuális gépen. Ha a testre szabott webalkalmazások és a felderítő lekérdezések másodlagosak, a GeoServer egyszerű módot kínál a térinformatikai adatok közzétételére.

  • Különböző Spark-kódtárak érhetők el az Azure Databricks térinformatikai adatainak kezeléséhez. Ez a megoldás a következő kódtárakat használja:

    De más megoldások is léteznek a térinformatikai számítási feladatok Azure Databricks-lel való feldolgozására és skálázására.

  • A vektorcsempék hatékonyan jelenítik meg a GIS-adatokat a térképeken. Ez a megoldás a PostGIS használatával dinamikusan kérdezi le a vektorcsempéket. Ez a megközelítés jól működik az 1 milliónál jóval több rekordot tartalmazó egyszerű lekérdezésekhez és eredményhalmazokhoz. A következő esetekben azonban jobb lehet egy másik megközelítés:

    • A lekérdezések számításilag költségesek.
    • Az adatok nem változnak gyakran.
    • Nagy adatkészleteket jelenít meg.

    Ilyen esetekben fontolja meg a Tippecanoe használatát vektorcsempék létrehozásához. A Tippecanoe-t az adatfeldolgozási folyamat részeként futtathatja tárolóként vagy az Azure Functions használatával. Az eredményként kapott csempéket API-k segítségével elérhetővé teheti.

  • Az Event Hubshoz hasonlóan az Azure IoT Hub is nagy mennyiségű adatot képes betölteni. Az IoT Hub azonban kétirányú kommunikációs képességeket is kínál az eszközökkel. Ha közvetlenül az eszközökről fogad adatokat, de parancsokat és szabályzatokat is küld vissza az eszközökre, vegye figyelembe az IoT Hubot az Event Hubs helyett.

  • A megoldás egyszerűsítése érdekében hagyja ki az alábbi összetevőket:

    • Azure Data Explorer
    • Power BI

Forgatókönyv részletei

Számos lehetőség áll rendelkezésre a térinformatikai adatok vagy egy földrajzi összetevőt tartalmazó információk kezeléséhez. A földrajzi információs rendszer (GIS) szoftverei és szabványai például széles körben elérhetők. Ezek a technológiák képesek tárolni, feldolgozni és hozzáférést biztosítani a térinformatikai adatokhoz. Gyakran azonban nehéz konfigurálni és karbantartani a térinformatikai adatokkal működő rendszereket. Ezen rendszerek más rendszerekkel való integrálásához szakértői ismeretekre is szüksége van.

Ez a cikk egy kezelhető megoldást mutat be a nagy mennyiségű térinformatikai adat elemzéshez való elérhetővé tételéhez. A megközelítés az Advanced Analytics referenciaarchitektúráján alapul, és az alábbi Azure-szolgáltatásokat használja:

  • A GIS Spark-kódtárakkal rendelkező Azure Databricks feldolgozza az adatokat.
  • Az Azure Database for PostgreSQL az API-kon keresztül lekérdezi a felhasználók által kért adatokat.
  • Az Azure Data Explorer gyors felderítő lekérdezéseket futtat.
  • Az Azure Térképek a térinformatikai adatok vizualizációit hozza létre webalkalmazásokban.
  • A Power BI Azure Térképek Power BI-vizualizációs funkciója testreszabott jelentéseket biztosít

Lehetséges használati esetek

Ez a megoldás számos területre vonatkozik:

  • Nagy mennyiségű raszteres adat, például térképek vagy éghajlati adatok feldolgozása, tárolása és hozzáférésének biztosítása.
  • A vállalati erőforrás-tervezés (ERP) rendszerentitások földrajzi helyzetének azonosítása.
  • Entitáshelyadatok és GIS-referenciaadatok kombinálása.
  • Eszközök internetes telemetriájának (IoT) tárolása mozgó eszközökről.
  • Elemzési térinformatikai lekérdezések futtatása.
  • Válogatott és környezetfüggő térinformatikai adatok beágyazása webalkalmazásokba.

Considerations

A microsoft azure well-architected keretrendszeren alapuló alábbi szempontok vonatkoznak erre a megoldásra.

Elérhetőség

  • Az Event Hubs a hibák kockázatát a fürtökre osztva szórja.

    • Használjon olyan névteret, amelyen be van kapcsolva a rendelkezésre állási zónák, hogy a kockázat három fizikailag elkülönített létesítményre terjedjen ki.
    • Fontolja meg az Event Hubs geo-vészhelyreállítási funkciójának használatát. Ez a funkció replikálja egy névtér teljes konfigurációját egy elsődlegesről egy másodlagos névtérre.
  • Tekintse meg az Azure Database for PostgreSQL által kínált üzletmenet-folytonossági funkciókat. Ezek a funkciók számos helyreállítási célt fednek le.

  • Az App Service diagnosztika riasztást küld az alkalmazások problémáira, például az állásidőre. Ezzel a szolgáltatással azonosíthatja, elháríthatja és elháríthatja az olyan problémákat, mint a kimaradások.

  • Fontolja meg az App Service használatát az alkalmazásfájlok biztonsági mentéséhez. Ügyeljen azonban a biztonsági mentési fájlokra, amelyek egyszerű szövegbe foglalják az alkalmazásbeállításokat. Ezek a beállítások olyan titkos kulcsokat tartalmazhatnak, mint a kapcsolati sztring.

Méretezhetőség

A megoldás implementációja megfelel az alábbi feltételeknek:

  • Naponta legfeljebb 10 millió adatkészletet dolgoz fel. Az adathalmazok kötegelt vagy streamelési eseményeket tartalmaznak.
  • 100 millió adatkészletet tárol egy Azure Database for PostgreSQL-adatbázisban.
  • Egyszerre 1 millió vagy kevesebb adathalmazt lekérdez. A lekérdezéseket legfeljebb 30 felhasználó futtathatja.

A környezet a következő konfigurációt használja:

  • Egy Azure Databricks-fürt négy F8s_V2 feldolgozó csomóponttal.
  • Az Azure Database for PostgreSQL memóriaoptimalizált példánya.
  • App Service-csomag két Standard S2-példánysal.

Vegye figyelembe ezeket a tényezőket annak meghatározásához, hogy milyen módosításokat kell végrehajtania a megvalósításhoz:

  • Az adatbetöltés sebessége.
  • Az ön adatmennyisége.
  • A lekérdezési kötet.
  • A támogatni kívánt párhuzamos lekérdezések száma.

Az Azure-összetevők egymástól függetlenül skálázhatók:

A Monitor automatikus méretezési funkciója skálázási funkciót is biztosít. Ezt a funkciót úgy konfigurálhatja, hogy erőforrásokat adjon hozzá a terhelés növekedésének kezeléséhez. Emellett az erőforrásokat is eltávolíthatja, hogy pénzt takarítson meg.

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.

  • A megoldás megvalósításának költségeinek becsléséhez tekintse meg a minta költségprofilját. Ez a profil a skálázhatósági szempontokban leírt környezet egyetlen implementációjára használható. Nem tartalmazza az Azure Data Explorer költségeit.
  • A paraméterek módosításához és a megoldás környezetbeli futtatásának költségeinek megismeréséhez használja az Azure díjszabási kalkulátorát.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

További lépések

Termékdokumentáció:

A megoldás implementálásának megkezdéséhez tekintse meg az alábbi információkat:

Információ a térinformatikai adatok feldolgozásáról