Fő adatkezelés az Azure-ral és a CluedInnel

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure Monitor

Ez a CluedIn-architektúra metrikákat biztosít a vállalatoknak az általa betöltött adatok minőségéről, intelligensen észlelik a piszkos adatokat, és előkészítik azokat az adatmérnökök és adatgondnokok általi tisztításra. A saját fejlesztésű logikai gépi tanulási algoritmusok segítenek az üzleti felhasználóknak és a kurátoroknak az adatok címkézésében, és megtanítják a rendszert az adatminőségi problémák azonosítására, javítására és megelőzésére az idő múlásával.

Felépítés

Diagram showing CluedIn architectural structure and data flow.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

A CluedIn megoldás különböző funkcionális rétegekből áll, amelyek az Azure Kubernetes Service-ben (AKS) található Kubernetes-fürtön futnak. A .NET Core mikroszolgáltatás-alkalmazások kombinációja különböző funkciókat kezel, például az adatbetöltést, a streamelési adatfeldolgozást, a sorba állítást és a felhasználói felületet.

  1. A CluedIn bejárási réteg olyan ügyfélfelhő-forrásokból tölt be adatokat, mint az Azure SQL DB, az Azure Cosmos DB, a PostgreSQL és a Salesforce-adatbázisok az Azure Data Factory-összekötőken keresztül.

    A CluedIn emellett olyan helyszíni, akadálymentes rendszerekből származó adatokat is használ, mint az SAP, az Oracle, az IBM és a Hadoop, vagy helyszíni ügynökökkel is bejárhatja a nem nyilvános adatokat.

  2. A vállalati service bus az 5672-s és az 15672-s porton keresztül csatlakozik a rendszergazdai végpontokhoz. A bejárók adatokat küldenek a busznak, a feldolgozó réteg pedig az 5672-es porton keresztül használja fel az adatokat a buszról.

  3. A tranzakciónapló-réteg a feldolgozási réteg eredményeit veszi át.

  4. Az adatmegőrzési rétegben az adatbázisok a tranzakciónaplóból származó adatokat felhasználják, és megőrzik, hogy végleges konzisztenciát biztosítsanak a különböző adattárakban. Az összes üzlet magas rendelkezésre állású (HA) módban fut.

    Az adatvirtualizálástól eltérően a CluedIn adatmegőrzési réteg betölti a forrásadatok részeit, és megőrzi az adatok legmagasabb hűségű verzióját és szerkezetét. Ez a magas megbízhatóság azt jelenti, hogy a CluedIn Data Fabric bármilyen formátumban vagy modellben képes kiszolgálni az üzleti adatkéréseket.

  5. Az adat absztrakciós réteg az egyes tárolók portjain keresztül csatlakozik a különböző adattárakhoz.

  6. Az adathozzáférés a GraphQL, REST és WebSockets hívásokon keresztül történik a 443-es porton keresztül. A GraphQL és a REST lekéréses modellt használ, a WebSockets pedig leküldéses modellt.

    A CluedIn szabályozással és helyek közötti hamisítással (CSRF) védi az adathozzáférést.

  7. A CluedIn ASP.NET Core webalkalmazás REST- és GraphQL-hívások kombinációján keresztül kommunikál a 443-es porton keresztül.

    A böngészőből az alkalmazásba irányuló összes kommunikáció bejövő definíciókat használ, amelyek csak egyetlen nyilvános IP-címet igényelnek. Éles környezetben minden kommunikáció biztonságos szoftvercsatornán (SSL) keresztül történik.

  8. A CluedIn alkalmazás megtisztított, feldolgozott adatokat biztosít az elemzési szolgáltatásoknak, például a Power BI-nak és az Azure Synapse Analyticsnek az elemzések létrehozásához. A rendszer biztonsági másolatot készít és tárol az összes adatot SQL- vagy Redis-adatbázisokban.

Összetevők

A CluedIn az Azure Kubernetes Service -en (AKS) fut, amely egy magas rendelkezésre állású, biztonságos és teljes körűen felügyelt Kubernetes-szolgáltatás a tárolóalapú alkalmazások üzembe helyezéséhez és kezeléséhez. Az AKS kiszolgáló nélküli Kubernetes-t, integrált CI/CD-t, valamint nagyvállalati szintű biztonságot és irányítást kínál.

A CluedIn számos adatbázisforrást és szolgáltatást használ és támogat, többek között a következőket:

  • Az Azure SQL Database, egy felügyelt relációs felhőadatbázis-szolgáltatás, amely mindig naprakész, és igény szerint automatikusan skálázhatja az erőforrásokat.
  • Azure SQL Managed Instance, a meglévő SQL Server-alkalmazásokkal való széles körű SQL Server-motorkompatibilitás érdekében. A felügyelt SQL-példány helyszíni adatbázis-infrastruktúrát biztosít az Azure felhőbeli előnyeivel, például rugalmas méretezéssel, egységes felügyelettel és felhőalapú számlázási modellel.
  • Az Azure Cosmos DB egy teljes mértékben felügyelt, nem relációs NoSQL kiszolgáló nélküli adatbázis a modern alkalmazásfejlesztéshez.
  • Az Azure Data Lake, egy méretezhető adattárolási és elemzési szolgáltatás.
  • Az Azure Data Factory egy teljes mértékben felügyelt, kiszolgáló nélküli adatintegrációs megoldás az adatok nagy léptékű betöltéséhez, előkészítéséhez és átalakításához. A CluedIn több mint 90 beépített Data Factory-összekötő használatával szerez be adatokat olyan forrásokból, mint az Amazon Redshift, a Google BigQuery, a HDFS, az Oracle Exadata, a Teradata, a Salesforce, a Marketo, a ServiceNow és az összes Azure-beli adatszolgáltatás.

A CluedIn számos elemzési alkalmazásnak és szolgáltatásnak biztosít feldolgozott, szabályozott adatokat, többek között a következőket:

Forgatókönyv részletei

A modern vállalati vállalatok számos folyamatot és projektet alapulnak az adatokon, de a nyers adatokat fel kell készíteni a fogyasztásra. Az adathasználati esetek a fejlett elemzésektől a gépi tanulásig hasonló adat-előkészítési folyamatokat és figyelmet igényelnek.

  1. Az adatprojektek az adatfelderítéssel kezdődnek, és meghatározzák, hogy hol találhatók az adatok, és milyen rendszereket használnak.
  2. Az adatintegráció ezután több adatforrást egyesít egy egyesített vagy csatlakoztatott adatkészletben.
  3. A következő lépés az adatok normalizálása, szabványosítása, harmonizálása és tisztítása, hogy a gépek egységes, egységes és nagy megbízhatóságú módon dolgozhassák fel azokat.
  4. Végül az adatokat könnyen és könnyen elérhetővé kell tenni az üzleti igényeknek megfelelően.

E folyamatok során az irányításnak biztosítania kell az adatok ellenőrzését és az adatvédelem egyértelmű tulajdonjogát, teljes nyomon követhetőségét, valamint az adatok eredetének, feldolgozásának és felhasználásának naplózását.

A CluedIn platform ezeket az adatkezelési folyamatokat és alappilléreket egy koherens, egységes, végpontok közötti master adatkezelés (MDM) megoldásba foglalja. A CluedIn egy végleges kapcsolat nevű adatintegrációs technikát használ, amely jobb eredményt ad, mint a klasszikus kinyerési, átalakítási, betöltési (ETL) vagy kinyerési, betöltési, átalakítási (ELT) modellek. A végleges kapcsolat GraphQL-lekérdezésekkel zökkenőmentesen egyesíti az adatokat számos silózott adatforrásból.

A végleges kapcsolat esetén az adatok nem lesznek összekapcsolva vagy összeolvadva más rendszerekbe való belépéskor vagy betöltésekor. Ehelyett a CluedIn betölti az adatokat, és metaadatokkal címkézi a rekordokat. Végül az azonos címkékkel rendelkező rekordok egyesülnek vagy kapcsolatot építenek ki a gráfban.

Ez a kifinomult adategyesítési technika az adatvezérelt megoldások alapja. A CluedIn Data Fabric olyan folyamatba integrálja az adatokat, amelyek megtisztítják, előkészítik, modellezik, szabályozzák, bővítik, deduplikálják és katalogizálják az adatokat, hogy azok könnyen elérhetők és elérhetők legyenek üzleti célokra.

A CluedIn metrikákat biztosít a vállalatoknak az általa betöltött adatok minőségéről, intelligensen észlelik a piszkos adatokat, és előkészítik azokat az adatmérnökök és adatgondnokok általi tisztításra. A saját fejlesztésű logikai gépi tanulási algoritmusok segítenek az üzleti felhasználóknak és a kurátoroknak az adatok címkézésében, és megtanítják a rendszert az adatminőségi problémák azonosítására, javítására és megelőzésére az idő múlásával.

A CluedIn nagyvállalati szintű szabályozást is tartalmaz, így biztos lehet abban, hogy biztonságosan és magabiztosan használhatja az adatokat. A CluedIn képes közvetlenül streamelni a megtisztított, szabályozott adatokat olyan elemzőrendszerekbe, mint a Power BI, az Azure Databricks, az Azure Synapse Analytics vagy az Azure Cognitive Services, hogy könnyen elérhetővé tegye őket a vállalat többi tagja számára. Az automatikus skálázás natív támogatása kihasználja az Azure erejét, hogy skálázható környezetet biztosítson a legnagyobb adatterhelésekhez.

Lehetséges használati esetek

Egyetlen adatnézet létrehozása

  • A CluedIn szemantikai modellezésének köszönhetően a master data egyetlen nézetének létrehozása sokkal egyszerűbb, mint a hagyományos megközelítések. A CluedIn ügyfelei a CluedIn használatával készítik el a legfontosabb üzleti adataik összekapcsolt, előzményalapú és kiváló minőségű nézetét. A CluedIn nem csak a klasszikus mestertartományok, például a Kapcsolatok, a vállalatok, a szállítók és a termékek elsajátítását támogatja, hanem számos különböző tartományt, valamint strukturálatlan tartományt is támogat, például fájlokat, leveleket, eseményeket stb. Ha olyan központi adattárra van szüksége, amely tiszta, gazdagított, szabályozott, minőség-vezérelt és katalogizált főadattárat igényel, akkor a CluedIn jó választás a használati esetekhez.

Adatháló

  • A CluedIn egy Gartner Cool Vendor 2020-ban, mivel képes a 10-100-s, 100-100-s és 1000-ek különböző és összetett adatforrásaiból származó adatokat egységesített adatközpontba vezénylni. Ha sok különböző adatforrásból kell adatokat egyszerűen átküldnie, akkor a CluedIn adathálóként is használható ennek eléréséhez. Ez olyan streamelési infrastruktúrát biztosíthat az adatokhoz, amelyek proaktív módon megtisztíthatják és elsajátíthatják az adatokat, miközben az alsóbb rétegbeli felhasználókhoz kerülnek.

A főadatok kifinomult egyesítése és összekapcsolása

  • A CluedIn egyedi adatmodellezési megközelítése egy gráfadatbázist használ, amely lehetővé teszi összetett adatok összevonását és egyszerűséggel való összekapcsolását. A hagyományos megközelítésekkel ellentétben a CluedIn további gépi tanulási és gráfelemzési lehetőségeket biztosít a rekordok nagyon nagy pontosságú egyesítéséhez, egyeztetéséhez és összekapcsolásához.

Considerations

Ezek a szempontok implementálják az Azure Well-Architected Framework alappilléreit, amely a számítási feladatok minőségének javítására használható vezérelvek halmaza. További információ: Microsoft Azure Well-Architected Framework.

Megbízhatóság

A megbízhatóság biztosítja, hogy az alkalmazás megfeleljen az ügyfelek felé vállalt kötelezettségeknek. További információ: A megbízhatósági pillér áttekintése.

  • A CluedIn automatikus napi adatbázis-biztonsági mentéseket készít, és alapértelmezés szerint 30 napig tárolja őket hosszú távú tárolóban. A teljes platform redundáns, hibatűrő vermekre épül, amelyek az összes alrendszer biztonsági mentéseit karbantartják. Az éjjel-nappal figyelő rendszerek biztosítják, hogy a szolgáltatások a lehető legintenzetlenek legyenek. A CluedIn az infrastruktúra redundanciára vonatkozó iparági standard eljárásokat követi.

  • A CluedIn csak az adatok reprezentációját jeleníti meg és tárolja, nem pedig az eredeti verziót. Ha a CluedIn destruktív adatbetörést észlel, ideiglenesen törölheti a CluedIn-adatokat a kiszolgálókról. Miután a behatolás alábbhagyott, a CluedIn újraalkotja az adatokat, hogy visszatérjen az eredeti állapotához.

  • Minden adattár magas rendelkezésre állású módban fut.

Méretezhetőség

  • A CluedIn Docker-tárolókban fut, és a Kubernetes használatával üzemelteti és vezényeli az alkalmazás különböző részeit. Ez az architektúra azt jelenti, hogy a CluedIn rugalmas környezetekben jól működik, és automatikusan méretezhető a szükséges méretekre és infrastruktúrára.

  • Az automatikus skálázás natív támogatása kihasználja az Azure erejét, hogy skálázható környezetet biztosítson a legnagyobb adatterhelésekhez.

  • A séma nélküli gráfmodellezés automatikusan kikövetkez egy adatmodellt a forrásadatokból. Az új adatforrások automatikusan csatlakoznak az összes többi adatforráshoz ahelyett, hogy kifejezetten integrálva kellene lenniük. Az adatforrások száma végtelenül méretezhető az integráció összetettségének növelése nélkül.

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

  • A CluedIn security engedélyeket ad a különböző szolgáltatásokhoz az Azure RBAC-vel, az Azure Key Vault biztonsági kulcsvezérlésével és az Azure Monitor hozzáférés-nyomon követésével és naplózásával.

  • A hitelesített felhasználói fiókok mellett a CluedIn az egyszeri bejelentkezést (SSO) és az identitás-keretrendszereket is támogatja. A CluedIn alkalmazáshoz érkező kérések titkosított hozzáférési jogkivonatokat használnak, amelyek nem rendelkeznek korrelációval a felhasználói identitással.

  • A CluedIn több tűzfal- és proxyréteg mögött kezeli a tárolt adatreprezentációkat, és egyedi kulcsokkal hitelesíti őket.

  • A CluedIn az összes forrásadatot 256 bites AES-titkosítással tárolja, amely erősebb vagy egyenlő a támogatott adatforrások titkosítási szintjével.

  • A szabályozás és a CSRF-megelőzés védi az adathozzáférést.

DevOps

  • A CluedIn az Azure Pipelines folyamatos integrációs és folyamatos kézbesítési (CI/CD) folyamatait használja az AKS-környezet üzembe helyezésének és folyamatos frissítéseinek kezelésére.

  • A CluedIn támogatja az egység-, integrációs és funkcionális tesztelést, hogy az adatok a várt módon alakuljanak át. A virtualizált feldolgozási folyamatok futtathatók a memóriában a tesztkörnyezet teszteléséhez. Az éles szintű állítások segíthetnek az adatproblémák hibakeresésében és nyomon követésében.

  • Tesztelési és éles környezetekhez a CluedIn egy Helm-csomagkezelő diagramot biztosít a CluedIn gyors telepítéséhez egy Kubernetes-fürtön. A teljes szkriptelt adattelepítési folyamatok támogatják a telepítést, a tesztelést és a bevezetést.

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.

A CluedIn díjszabása nyitott és átlátható. A díjszabást a webhelyükön tekintheti meg.

Azure-méretezés és próbaidőszak indítása

Elindíthatja a CluedIn 7 napos próbaverzióját a webhelyén, amely segíthet az Azure üzemeltetési költségeinek hatókörében a különböző méretű környezetek előre összeállított Azure-becsléseivel.

A forgatókönyv üzembe helyezése

  • Ha fejlesztési és kiértékelési célokra szeretné üzembe helyezni a CluedIn-t a Dockerrel, olvassa el a CluedIn with Dockert.

  • A CluedIn gyors telepítéséhez kubernetes-fürtben lásd : CluedIn with Kubernetes. A Helm-diagram telepíti a CluedIn-kiszolgálót, a webhelyet és más szükséges szolgáltatásokat, például a tárhelyet és az üzenetsorokat.

További lépések