Ez a CluedIn-architektúra metrikákat biztosít a vállalatoknak az általa betöltött adatok minőségéről, intelligensen észlelik a piszkos adatokat, és előkészítik azokat az adatmérnökök és adatgondnokok általi tisztításra. A saját fejlesztésű logikai gépi tanulási algoritmusok segítenek az üzleti felhasználóknak és a kurátoroknak az adatok címkézésében, és megtanítják a rendszert az adatminőségi problémák azonosítására, javítására és megelőzésére az idő múlásával.
Felépítés
Töltse le az architektúra Visio-fájlját.
Adatfolyam
A CluedIn megoldás különböző funkcionális rétegekből áll, amelyek az Azure Kubernetes Service-ben (AKS) található Kubernetes-fürtön futnak. A .NET Core mikroszolgáltatás-alkalmazások kombinációja különböző funkciókat kezel, például az adatbetöltést, a streamelési adatfeldolgozást, a sorba állítást és a felhasználói felületet.
A CluedIn bejárási réteg olyan ügyfélfelhő-forrásokból tölt be adatokat, mint az Azure SQL DB, az Azure Cosmos DB, a PostgreSQL és a Salesforce-adatbázisok az Azure Data Factory-összekötőken keresztül.
A CluedIn emellett olyan helyszíni, akadálymentes rendszerekből származó adatokat is használ, mint az SAP, az Oracle, az IBM és a Hadoop, vagy helyszíni ügynökökkel is bejárhatja a nem nyilvános adatokat.
A vállalati service bus az 5672-s és az 15672-s porton keresztül csatlakozik a rendszergazdai végpontokhoz. A bejárók adatokat küldenek a busznak, a feldolgozó réteg pedig az 5672-es porton keresztül használja fel az adatokat a buszról.
A tranzakciónapló-réteg a feldolgozási réteg eredményeit veszi át.
Az adatmegőrzési rétegben az adatbázisok a tranzakciónaplóból származó adatokat felhasználják, és megőrzik, hogy végleges konzisztenciát biztosítsanak a különböző adattárakban. Az összes üzlet magas rendelkezésre állású (HA) módban fut.
Az adatvirtualizálástól eltérően a CluedIn adatmegőrzési réteg betölti a forrásadatok részeit, és megőrzi az adatok legmagasabb hűségű verzióját és szerkezetét. Ez a magas megbízhatóság azt jelenti, hogy a CluedIn Data Fabric bármilyen formátumban vagy modellben képes kiszolgálni az üzleti adatkéréseket.
Az adat absztrakciós réteg az egyes tárolók portjain keresztül csatlakozik a különböző adattárakhoz.
Az adathozzáférés a GraphQL, REST és WebSockets hívásokon keresztül történik a 443-es porton keresztül. A GraphQL és a REST lekéréses modellt használ, a WebSockets pedig leküldéses modellt.
A CluedIn szabályozással és helyek közötti hamisítással (CSRF) védi az adathozzáférést.
A CluedIn ASP.NET Core webalkalmazás REST- és GraphQL-hívások kombinációján keresztül kommunikál a 443-es porton keresztül.
A böngészőből az alkalmazásba irányuló összes kommunikáció bejövő definíciókat használ, amelyek csak egyetlen nyilvános IP-címet igényelnek. Éles környezetben minden kommunikáció biztonságos szoftvercsatornán (SSL) keresztül történik.
A CluedIn alkalmazás megtisztított, feldolgozott adatokat biztosít az elemzési szolgáltatásoknak, például a Power BI-nak és az Azure Synapse Analyticsnek az elemzések létrehozásához. A rendszer biztonsági másolatot készít és tárol az összes adatot SQL- vagy Redis-adatbázisokban.
Összetevők
A CluedIn az Azure Kubernetes Service -en (AKS) fut, amely egy magas rendelkezésre állású, biztonságos és teljes körűen felügyelt Kubernetes-szolgáltatás a tárolóalapú alkalmazások üzembe helyezéséhez és kezeléséhez. Az AKS kiszolgáló nélküli Kubernetes-t, integrált CI/CD-t, valamint nagyvállalati szintű biztonságot és irányítást kínál.
A CluedIn számos adatbázisforrást és szolgáltatást használ és támogat, többek között a következőket:
- Az Azure SQL Database, egy felügyelt relációs felhőadatbázis-szolgáltatás, amely mindig naprakész, és igény szerint automatikusan skálázhatja az erőforrásokat.
- Azure SQL Managed Instance, a meglévő SQL Server-alkalmazásokkal való széles körű SQL Server-motorkompatibilitás érdekében. A felügyelt SQL-példány helyszíni adatbázis-infrastruktúrát biztosít az Azure felhőbeli előnyeivel, például rugalmas méretezéssel, egységes felügyelettel és felhőalapú számlázási modellel.
- Az Azure Cosmos DB egy teljes mértékben felügyelt, nem relációs NoSQL kiszolgáló nélküli adatbázis a modern alkalmazásfejlesztéshez.
- Az Azure Data Lake, egy méretezhető adattárolási és elemzési szolgáltatás.
- Az Azure Data Factory egy teljes mértékben felügyelt, kiszolgáló nélküli adatintegrációs megoldás az adatok nagy léptékű betöltéséhez, előkészítéséhez és átalakításához. A CluedIn több mint 90 beépített Data Factory-összekötő használatával szerez be adatokat olyan forrásokból, mint az Amazon Redshift, a Google BigQuery, a HDFS, az Oracle Exadata, a Teradata, a Salesforce, a Marketo, a ServiceNow és az összes Azure-beli adatszolgáltatás.
A CluedIn számos elemzési alkalmazásnak és szolgáltatásnak biztosít feldolgozott, szabályozott adatokat, többek között a következőket:
- Az Azure Databricks egy gyors, egyszerű és együttműködésen alapuló Apache Spark-alapú elemzési szolgáltatás.
- Az Azure Synapse Analytics egy korlátlan elemzési szolgáltatás, amely a nagyvállalati adattárházakat és a Big Data-elemzéseket egyesíti.
- Az Azure Monitor naplóadataiból származó lekérdezések szerkesztésére, futtatására és elemzésére szolgáló Azure Portal-eszköz, a Log Analytics.
- Az Azure Cognitive Services, az AI-szolgáltatások és a kognitív API-k átfogó családja intelligens alkalmazások létrehozásához.
- A Power BI, a Microsoft üzleti elemzési szolgáltatása, amely az interaktív vizualizációkat és az üzleti intelligenciát ötvözi egy könnyen használható jelentéskészítési felülettel.
Forgatókönyv részletei
A modern vállalati vállalatok számos folyamatot és projektet alapulnak az adatokon, de a nyers adatokat fel kell készíteni a fogyasztásra. Az adathasználati esetek a fejlett elemzésektől a gépi tanulásig hasonló adat-előkészítési folyamatokat és figyelmet igényelnek.
- Az adatprojektek az adatfelderítéssel kezdődnek, és meghatározzák, hogy hol találhatók az adatok, és milyen rendszereket használnak.
- Az adatintegráció ezután több adatforrást egyesít egy egyesített vagy csatlakoztatott adatkészletben.
- A következő lépés az adatok normalizálása, szabványosítása, harmonizálása és tisztítása, hogy a gépek egységes, egységes és nagy megbízhatóságú módon dolgozhassák fel azokat.
- Végül az adatokat könnyen és könnyen elérhetővé kell tenni az üzleti igényeknek megfelelően.
E folyamatok során az irányításnak biztosítania kell az adatok ellenőrzését és az adatvédelem egyértelmű tulajdonjogát, teljes nyomon követhetőségét, valamint az adatok eredetének, feldolgozásának és felhasználásának naplózását.
A CluedIn platform ezeket az adatkezelési folyamatokat és alappilléreket egy koherens, egységes, végpontok közötti master adatkezelés (MDM) megoldásba foglalja. A CluedIn egy végleges kapcsolat nevű adatintegrációs technikát használ, amely jobb eredményt ad, mint a klasszikus kinyerési, átalakítási, betöltési (ETL) vagy kinyerési, betöltési, átalakítási (ELT) modellek. A végleges kapcsolat GraphQL-lekérdezésekkel zökkenőmentesen egyesíti az adatokat számos silózott adatforrásból.
A végleges kapcsolat esetén az adatok nem lesznek összekapcsolva vagy összeolvadva más rendszerekbe való belépéskor vagy betöltésekor. Ehelyett a CluedIn betölti az adatokat, és metaadatokkal címkézi a rekordokat. Végül az azonos címkékkel rendelkező rekordok egyesülnek vagy kapcsolatot építenek ki a gráfban.
Ez a kifinomult adategyesítési technika az adatvezérelt megoldások alapja. A CluedIn Data Fabric olyan folyamatba integrálja az adatokat, amelyek megtisztítják, előkészítik, modellezik, szabályozzák, bővítik, deduplikálják és katalogizálják az adatokat, hogy azok könnyen elérhetők és elérhetők legyenek üzleti célokra.
A CluedIn metrikákat biztosít a vállalatoknak az általa betöltött adatok minőségéről, intelligensen észlelik a piszkos adatokat, és előkészítik azokat az adatmérnökök és adatgondnokok általi tisztításra. A saját fejlesztésű logikai gépi tanulási algoritmusok segítenek az üzleti felhasználóknak és a kurátoroknak az adatok címkézésében, és megtanítják a rendszert az adatminőségi problémák azonosítására, javítására és megelőzésére az idő múlásával.
A CluedIn nagyvállalati szintű szabályozást is tartalmaz, így biztos lehet abban, hogy biztonságosan és magabiztosan használhatja az adatokat. A CluedIn képes közvetlenül streamelni a megtisztított, szabályozott adatokat olyan elemzőrendszerekbe, mint a Power BI, az Azure Databricks, az Azure Synapse Analytics vagy az Azure Cognitive Services, hogy könnyen elérhetővé tegye őket a vállalat többi tagja számára. Az automatikus skálázás natív támogatása kihasználja az Azure erejét, hogy skálázható környezetet biztosítson a legnagyobb adatterhelésekhez.
Lehetséges használati esetek
Egyetlen adatnézet létrehozása
- A CluedIn szemantikai modellezésének köszönhetően a master data egyetlen nézetének létrehozása sokkal egyszerűbb, mint a hagyományos megközelítések. A CluedIn ügyfelei a CluedIn használatával készítik el a legfontosabb üzleti adataik összekapcsolt, előzményalapú és kiváló minőségű nézetét. A CluedIn nem csak a klasszikus mestertartományok, például a Kapcsolatok, a vállalatok, a szállítók és a termékek elsajátítását támogatja, hanem számos különböző tartományt, valamint strukturálatlan tartományt is támogat, például fájlokat, leveleket, eseményeket stb. Ha olyan központi adattárra van szüksége, amely tiszta, gazdagított, szabályozott, minőség-vezérelt és katalogizált főadattárat igényel, akkor a CluedIn jó választás a használati esetekhez.
Adatháló
- A CluedIn egy Gartner Cool Vendor 2020-ban, mivel képes a 10-100-s, 100-100-s és 1000-ek különböző és összetett adatforrásaiból származó adatokat egységesített adatközpontba vezénylni. Ha sok különböző adatforrásból kell adatokat egyszerűen átküldnie, akkor a CluedIn adathálóként is használható ennek eléréséhez. Ez olyan streamelési infrastruktúrát biztosíthat az adatokhoz, amelyek proaktív módon megtisztíthatják és elsajátíthatják az adatokat, miközben az alsóbb rétegbeli felhasználókhoz kerülnek.
A főadatok kifinomult egyesítése és összekapcsolása
- A CluedIn egyedi adatmodellezési megközelítése egy gráfadatbázist használ, amely lehetővé teszi összetett adatok összevonását és egyszerűséggel való összekapcsolását. A hagyományos megközelítésekkel ellentétben a CluedIn további gépi tanulási és gráfelemzési lehetőségeket biztosít a rekordok nagyon nagy pontosságú egyesítéséhez, egyeztetéséhez és összekapcsolásához.
Considerations
Ezek a szempontok implementálják az Azure Well-Architected Framework alappilléreit, amely a számítási feladatok minőségének javítására használható vezérelvek halmaza. További információ: Microsoft Azure Well-Architected Framework.
Megbízhatóság
A megbízhatóság biztosítja, hogy az alkalmazás megfeleljen az ügyfelek felé vállalt kötelezettségeknek. További információ: A megbízhatósági pillér áttekintése.
A CluedIn automatikus napi adatbázis-biztonsági mentéseket készít, és alapértelmezés szerint 30 napig tárolja őket hosszú távú tárolóban. A teljes platform redundáns, hibatűrő vermekre épül, amelyek az összes alrendszer biztonsági mentéseit karbantartják. Az éjjel-nappal figyelő rendszerek biztosítják, hogy a szolgáltatások a lehető legintenzetlenek legyenek. A CluedIn az infrastruktúra redundanciára vonatkozó iparági standard eljárásokat követi.
A CluedIn csak az adatok reprezentációját jeleníti meg és tárolja, nem pedig az eredeti verziót. Ha a CluedIn destruktív adatbetörést észlel, ideiglenesen törölheti a CluedIn-adatokat a kiszolgálókról. Miután a behatolás alábbhagyott, a CluedIn újraalkotja az adatokat, hogy visszatérjen az eredeti állapotához.
Minden adattár magas rendelkezésre állású módban fut.
Méretezhetőség
A CluedIn Docker-tárolókban fut, és a Kubernetes használatával üzemelteti és vezényeli az alkalmazás különböző részeit. Ez az architektúra azt jelenti, hogy a CluedIn rugalmas környezetekben jól működik, és automatikusan méretezhető a szükséges méretekre és infrastruktúrára.
Az automatikus skálázás natív támogatása kihasználja az Azure erejét, hogy skálázható környezetet biztosítson a legnagyobb adatterhelésekhez.
A séma nélküli gráfmodellezés automatikusan kikövetkez egy adatmodellt a forrásadatokból. Az új adatforrások automatikusan csatlakoznak az összes többi adatforráshoz ahelyett, hogy kifejezetten integrálva kellene lenniük. Az adatforrások száma végtelenül méretezhető az integráció összetettségének növelése nélkül.
Biztonság
A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.
A CluedIn security engedélyeket ad a különböző szolgáltatásokhoz az Azure RBAC-vel, az Azure Key Vault biztonsági kulcsvezérlésével és az Azure Monitor hozzáférés-nyomon követésével és naplózásával.
A hitelesített felhasználói fiókok mellett a CluedIn az egyszeri bejelentkezést (SSO) és az identitás-keretrendszereket is támogatja. A CluedIn alkalmazáshoz érkező kérések titkosított hozzáférési jogkivonatokat használnak, amelyek nem rendelkeznek korrelációval a felhasználói identitással.
A CluedIn több tűzfal- és proxyréteg mögött kezeli a tárolt adatreprezentációkat, és egyedi kulcsokkal hitelesíti őket.
A CluedIn az összes forrásadatot 256 bites AES-titkosítással tárolja, amely erősebb vagy egyenlő a támogatott adatforrások titkosítási szintjével.
A szabályozás és a CSRF-megelőzés védi az adathozzáférést.
DevOps
A CluedIn az Azure Pipelines folyamatos integrációs és folyamatos kézbesítési (CI/CD) folyamatait használja az AKS-környezet üzembe helyezésének és folyamatos frissítéseinek kezelésére.
A CluedIn támogatja az egység-, integrációs és funkcionális tesztelést, hogy az adatok a várt módon alakuljanak át. A virtualizált feldolgozási folyamatok futtathatók a memóriában a tesztkörnyezet teszteléséhez. Az éles szintű állítások segíthetnek az adatproblémák hibakeresésében és nyomon követésében.
Tesztelési és éles környezetekhez a CluedIn egy Helm-csomagkezelő diagramot biztosít a CluedIn gyors telepítéséhez egy Kubernetes-fürtön. A teljes szkriptelt adattelepítési folyamatok támogatják a telepítést, a tesztelést és a bevezetést.
Költségoptimalizálás
A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.
A CluedIn díjszabása nyitott és átlátható. A díjszabást a webhelyükön tekintheti meg.
Azure-méretezés és próbaidőszak indítása
Elindíthatja a CluedIn 7 napos próbaverzióját a webhelyén, amely segíthet az Azure üzemeltetési költségeinek hatókörében a különböző méretű környezetek előre összeállított Azure-becsléseivel.
A forgatókönyv üzembe helyezése
Ha fejlesztési és kiértékelési célokra szeretné üzembe helyezni a CluedIn-t a Dockerrel, olvassa el a CluedIn with Dockert.
A CluedIn gyors telepítéséhez kubernetes-fürtben lásd : CluedIn with Kubernetes. A Helm-diagram telepíti a CluedIn-kiszolgálót, a webhelyet és más szükséges szolgáltatásokat, például a tárhelyet és az üzenetsorokat.
További lépések
- A CluedIn szolgáltatással kapcsolatos további információkért tekintse meg a CluedIn webhelyét.
- A CluedIn dokumentációját a CluedIn dokumentációjában találja.
Kapcsolódó erőforrások
- Egy példa a végpontok közötti Azure-adatplatformra, lásd az Azure-adatplatform végpontok közötti használatát.