Hoofdgegevensbeheer met Azure en CluedIn

Azure Data Factory

Azure SQL Database

Azure Synapse Analytics

Azure Monitor

Deze CluedIn-architectuur biedt bedrijven metrische gegevens over de kwaliteit van de gegevens die ze opnemen, op intelligente wijze vuile gegevens detecteren en voorbereiden voor het opschonen van gegevenstechnici en gegevensstewards. Eigen fuzzy logische machine learning-algoritmen helpen zakelijke gebruikers en curatoren gegevens te labelen en het systeem te leren problemen met de kwaliteit van gegevens in de loop van de tijd te identificeren, corrigeren en voorkomen.

Architectuur

Diagram met De architectuur van CluedIn en de gegevensstroom.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

De Oplossing CluedIn bestaat uit verschillende functionele lagen die worden uitgevoerd in een Kubernetes-cluster in Azure Kubernetes Service (AKS). Een combinatie van .NET Core-microservicetoepassingen verwerkt verschillende functies zoals gegevensopname, streaminggegevensverwerking, wachtrijen en gebruikersinterface.

De Verkenningslaag CluedIn neemt gegevens op uit cloudbronnen van klanten, zoals Azure SQL DB, Azure Cosmos DB, PostgreSQL en Salesforce-databases via Azure Data Factory-connectors.

CluedIn gebruikt ook invoer van on-premises toegankelijke systemen zoals SAP, Oracle, IBM en Hadoop, of kan on-premises agents gebruiken om niet-openbare gegevens te verkennen.
De enterprise-servicebus maakt verbinding via poorten 5672 en 15672 voor beheereindpunten. Crawlers verzenden gegevens naar de bus en de verwerkingslaag verbruikt gegevens van de bus via poort 5672.
De transactielogboeklaag neemt resultaten van de verwerkingslaag.
In de persistentielaag gebruiken databases gegevens uit het transactielogboek en blijven ze behouden om uiteindelijke consistentie te bieden in de verschillende gegevensarchieven. Alle winkels worden uitgevoerd in de hoge beschikbaarheidsmodus (HA).

In tegenstelling tot gegevensvirtualisatie neemt de persistentielaag CluedIn delen van de brongegevens op en behoudt de hoogste kwaliteitsversie van gegevens en de structuur ervan. Deze hoge kwaliteit betekent dat de CluedIn Data Fabric zakelijke aanvragen voor gegevens in elke indeling of elk model kan verwerken.
De gegevensabstractielaag maakt verbinding met de verschillende gegevensarchieven via de poorten voor elk archief.
Gegevenstoegang vindt plaats via GraphQL-, REST- en WebSockets-aanroepen via poort 443. GraphQL en REST gebruiken een pull-model en WebSockets maken gebruik van een pushmodel.

CluedIn beschermt gegevenstoegang via beperking en CSRF-preventie (Cross-Site Request Forgery).
De CluedIn ASP.NET Core-webtoepassing communiceert via een combinatie van REST- en GraphQL-aanroepen via poort 443.

Alle communicatie vanuit de browser in de toepassing maakt gebruik van een set inkomende definities, waarvoor slechts één openbaar IP-adres is vereist. In een productieomgeving is alle communicatie over secure socket layer (SSL).
De CluedIn-toepassing biedt opgeschoonde, verwerkte gegevens voor analyseservices zoals Power BI en Azure Synapse Analytics voor het genereren van inzichten. Het systeem maakt een back-up en slaat alle gegevens op in SQL- of Redis-databases.

Onderdelen

CluedIn wordt uitgevoerd op Azure Kubernetes Service (AKS), een maximaal beschikbare, veilige en volledig beheerde Kubernetes-service voor het implementeren en beheren van toepassingen in containers. AKS biedt serverloze Kubernetes, geïntegreerde CI/CD en hoogwaardige beveiliging en governance.

CluedIn gebruikt en ondersteunt veel databasebronnen en -services, waaronder:

Azure SQL Database, een beheerde relationele clouddatabaseservice die altijd up-to-date is en automatisch resources op aanvraag kan schalen.
Azure SQL Managed Instance, voor brede compatibiliteit met SQL Server-engine met bestaande SQL Server-toepassingen. SQL Managed Instance biedt on-premises database-infrastructuren met azure-cloudvoordelen, zoals elastisch schalen, geïntegreerd beheer en een cloudfactureringsmodel.
Azure Cosmos DB, een volledig beheerde, niet-relationele NoSQL-serverloze database voor moderne app-ontwikkeling.
Azure Data Lake, een schaalbare service voor gegevensopslag en analyse.
Azure Data Factory, een volledig beheerde, serverloze oplossing voor gegevensintegratie voor het opnemen, voorbereiden en transformeren van gegevens op schaal. CluedIn maakt gebruik van meer dan 90 ingebouwde Data Factory-connectors om gegevens te verkrijgen uit bronnen zoals Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow en alle Azure-gegevensservices.

CluedIn biedt verwerkte, beheerde gegevens voor veel analyse-apps en -services, waaronder:

Azure Databricks, een snelle, eenvoudige en gezamenlijke analyseservice op basis van Apache Spark.
Azure Synapse Analytics, een onbeperkte analyseservice die zakelijke datawarehousing en big data-analyses combineert.
Log Analytics, een Azure Portal-hulpprogramma voor het bewerken, uitvoeren en analyseren van query's vanuit Azure Monitor-logboekgegevens.
Azure Cognitive Services, een uitgebreide reeks AI-services en cognitieve API's voor het bouwen van intelligente apps.
Power BI, een Microsoft Business Analytics-service die interactieve visualisaties en business intelligence combineert met een gebruiksvriendelijke interface voor het maken van rapporten.

Scenariodetails

Moderne ondernemingen baseren veel processen en projecten op gegevens, maar de onbewerkte gegevens moeten worden voorbereid op verbruik. Voor gegevensgebruiksscenario's van geavanceerde analyses tot machine learning zijn allemaal vergelijkbare processen en aandacht voor gegevensvoorbereiding vereist.

Gegevensprojecten beginnen met gegevensdetectie om te bepalen waar gegevens zijn en welke systemen worden gebruikt.
Gegevensintegratie brengt vervolgens meerdere gegevensbronnen samen in een geïntegreerde of verbonden gegevensset.
De volgende stap is het normaliseren, standaardiseren, harmoniseren en opschonen van de gegevens, zodat machines deze op een uniforme, consistente en hoogwaardige manier kunnen verwerken.
Ten slotte moeten de gegevens eenvoudig en gemakkelijk beschikbaar worden gemaakt voor zakelijke behoeften.

Tijdens deze processen moet governance zorgen voor gegevensbeheer en privacybescherming met duidelijk eigendom, volledige traceerbaarheid en een audittrail van gegevensoorsprongen, verwerking en gebruik.

Het CluedIn-platform omvat deze processen en pijlers voor gegevensbeheer in een coherente, consistente, end-to-end Gegevensbeheer MDM-oplossing (End-to-End Master). CluedIn maakt gebruik van een techniek voor gegevensintegratie, genaamd uiteindelijke connectiviteit, die betere resultaten oplevert dan klassieke ETL-modellen (extract, transform, load, transform,extract, transform). Uiteindelijke connectiviteit maakt gebruik van GraphQL-query's om gegevens naadloos te combineren vanuit veel gesilode gegevensbronnen.

Met uiteindelijke connectiviteit worden gegevens niet samengevoegd of samengevoegd bij het invoeren of laden in andere systemen. In plaats daarvan laadt CluedIn de gegevens zoals dat is en tags records met behulp van metagegevens. Uiteindelijk worden records met dezelfde tags samengevoegd of een relatie in de grafiek opgebouwd.

Deze geavanceerde techniek voor het samenvoegen van gegevens biedt een basis voor gegevensgestuurde oplossingen. De CluedIn Data Fabric integreert gegevens in een pijplijn die gegevens opschoont, voorbereidt, modellen, beheert, verrijkt, ontdubbelt en catalogigegevens om deze eenvoudig beschikbaar en toegankelijk te maken voor zakelijk gebruik.

CluedIn biedt bedrijven metrische gegevens over de kwaliteit van gegevens die worden opgenomen, intelligente detectie van vuile gegevens en het voorbereiden voor het opschonen van gegevenstechnici en gegevensstewards. Eigen fuzzy logische machine learning-algoritmen helpen zakelijke gebruikers en curatoren gegevens te labelen en het systeem te leren problemen met de kwaliteit van gegevens in de loop van de tijd te identificeren, corrigeren en voorkomen.

CluedIn bevat governance op bedrijfsniveau, voor zekerheid dat u uw gegevens veilig en betrouwbaar kunt gebruiken. CluedIn kan opgeschoonde, beheerde gegevens rechtstreeks streamen naar analysesystemen zoals Power BI, Azure Databricks, Azure Synapse Analytics of Azure Cognitive Services om deze eenvoudig beschikbaar te maken voor de rest van het bedrijf. Systeemeigen ondersteuning voor automatisch schalen maakt gebruik van de kracht van Azure om een schaalbare omgeving te bieden voor de grootste gegevensworkloads.

Potentiële gebruikscases

Eén weergave van gegevens maken

Door de semantische modellering van CluedIn is het bouwen van één weergave van uw mastergegevens veel eenvoudiger te bereiken in vergelijking met traditionele benaderingen. De klanten van CluedIn gebruiken CluedIn om een verbonden, historische en hoogwaardige weergave van hun meest kritieke bedrijfsgegevens te bouwen. CluedIn ondersteunt niet alleen het masteren van klassieke masterdomeinen zoals Mensen, bedrijven, leveranciers en producten- het ondersteunt en het eindeloze aantal verschillende domeinen en ongestructureerde domeinen zoals bestanden, e-mail, gebeurtenissen en meer. Als u een gecentraliseerde opslagplaats met hoofdgegevens nodig hebt die schoon, verrijkt, beheerd, door kwaliteit beheerd en gecatalogiseerd zijn, is CluedIn geschikt voor uw gebruiksscenario's.

Een gegevensinfrastructuur

CluedIn is een Cool Vendor in 2020, vanwege de mogelijkheid om gegevens te organiseren van over de jaren 10, 100 en 1000 van verschillende en complexe gegevensbronnen in een geïntegreerde data hub. Als u eenvoudig gegevens uit veel verschillende gegevensbronnen moet wrangleren, kan CluedIn worden gebruikt als een gegevensinfrastructuur om dit te bereiken. Dit kan een streaming-infrastructuur bieden voor uw gegevens die de gegevens ook proactief kunnen opschonen en beheren terwijl deze naar downstreamgebruikers stromen.

Geavanceerde samenvoeging en koppeling van hoofdgegevens

De unieke benadering voor gegevensmodellering van CluedIn maakt gebruik van een grafiekdatabase, waardoor complexe gegevens kunnen worden samengevoegd en gekoppeld met eenvoud. In tegenstelling tot traditionele benaderingen voegt CluedIn extra machine learning- en grafiekanalyses toe om records met een zeer hoge precisie samen te voegen, te vergelijken en te koppelen.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

CluedIn maakt automatische dagelijkse databaseback-ups en bewaart ze standaard 30 dagen in langetermijnopslag. Het hele platform is gebouwd op redundante, fouttolerante stacks die back-ups voor alle subsystemen onderhouden. Rond de klokbewakingssystemen zorgen ervoor dat services zo onbevlekt mogelijk zijn. CluedIn volgt industriestandaardprocedures voor infrastructuurredundantie.
CluedIn wordt weergegeven en slaat alleen een weergave van uw gegevens op, niet de oorspronkelijke versie. Als CluedIn destructieve gegevensinbraak detecteert, kunnen de CluedIn-gegevens tijdelijk van uw servers worden gewist. Zodra de inbraak afneemt, regathert CluedIn de gegevens om terug te keren naar de oorspronkelijke staat.
Alle gegevensarchieven worden uitgevoerd in de modus voor hoge beschikbaarheid.

Schaalbaarheid

CluedIn wordt uitgevoerd in Docker-containers en gebruikt Kubernetes om de verschillende onderdelen van de toepassing te hosten en te organiseren. Deze architectuur betekent dat CluedIn goed werkt in elastische omgevingen en automatisch kan worden geschaald naar de benodigde grootten en infrastructuur.
Systeemeigen ondersteuning voor automatisch schalen maakt gebruik van de kracht van Azure om een schaalbare omgeving te bieden voor de grootste gegevensworkloads.
Met schemaloze grafiekmodellering wordt automatisch een gegevensmodel afgeleid van de brongegevens. Nieuwe gegevensbronnen maken automatisch verbinding met alle andere gegevensbronnen in plaats van expliciet te worden geïntegreerd. Het aantal gegevensbronnen kan oneindig worden geschaald zonder de integratiecomplexiteit te vergroten.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

CluedIn-beveiliging verleent machtigingen en beheert toegang tot verschillende services via Azure RBAC, met Azure Key Vault-beveiligingssleutelbeheer en Azure Monitor-toegangstracering en logboekregistratie.
Naast geverifieerde gebruikersaccounts biedt CluedIn ook ondersteuning voor eenmalige aanmelding (SSO) en identiteitsframeworks. Aanvragen voor de CluedIn-toepassing maken gebruik van versleutelde toegangstokens die geen correlatie hebben met de gebruikersidentiteit.
CluedIn beheert opgeslagen gegevensweergaven achter meerdere firewall- en proxylagen en verifieert deze met een set unieke sleutels.
CluedIn slaat alle brongegevens op met 256-bits AES-versleuteling, die sterker is dan of gelijk is aan het versleutelingsniveau van de ondersteunde gegevensbronnen.
Beperking en CSRF-preventie beschermen gegevenstoegang.

DevOps

CluedIn maakt gebruik van pijplijnen voor continue integratie en continue levering (CI/CD) van Azure Pipelines voor het afhandelen van implementaties en rolling updates voor de AKS-omgeving.
CluedIn ondersteunt eenheids-, integratie- en functionele tests om ervoor te zorgen dat gegevens worden getransformeerd zoals verwacht. Gevirtualiseerde verwerkingspijplijnen kunnen worden uitgevoerd in het geheugen voor sandbox-tests. Asserties op productieniveau kunnen helpen bij het opsporen en opsporen van gegevensproblemen.
Voor test- en productieomgevingen biedt CluedIn een Helm Package Manager-grafiek om CluedIn snel in een Kubernetes-cluster te installeren. Volledig gescripte gegevensimplementatieprocessen ondersteunen het instellen, testen en implementeren.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De prijzen voor CluedIn zijn open en transparant. U kunt de prijzen op hun website bekijken.

De grootte en het starten van een proefversie van Azure

U kunt een proefversie van 7 dagen beginnen met CluedIn op hun website, waarmee u uw Azure-hostingkosten kunt beperken met vooraf samengestelde Azure-schattingen voor verschillende omgevingen.

Dit scenario implementeren

Zie CluedIn met Docker voor het implementeren van CluedIn voor ontwikkelings- en evaluatiedoeleinden.
Zie CluedIn met Kubernetes om CluedIn snel in een Kubernetes-cluster te installeren. De Helm-grafiek installeert de CluedIn-server, website en andere vereiste services, zoals opslag en wachtrijen.

Volgende stappen

Zie de CluedIn-website voor meer informatie over CluedIn.
Zie de DocumentationdIn-documentatie voor CluedIn voor de documentatie van CluedIn.

Zie end-to-end Azure-gegevensplatform voor een voorbeeld van een end-to-end Azure-gegevensplatform.

Share via

Hoofdgegevensbeheer met Azure en CluedIn

Architectuur

Gegevensstroom

Onderdelen

Scenariodetails

Potentiële gebruikscases

Eén weergave van gegevens maken

Een gegevensinfrastructuur

Geavanceerde samenvoeging en koppeling van hoofdgegevens

Overwegingen

Betrouwbaarheid

Schaalbaarheid

Beveiliging

DevOps

Kostenoptimalisatie

De grootte en het starten van een proefversie van Azure

Dit scenario implementeren

Volgende stappen

Feedback

Feedback

Aanvullende resources

Share via

Hoofdgegevensbeheer met Azure en CluedIn

Architectuur

Gegevensstroom

Onderdelen

Scenariodetails

Potentiële gebruikscases

Eén weergave van gegevens maken

Een gegevensinfrastructuur

Geavanceerde samenvoeging en koppeling van hoofdgegevens

Overwegingen

Betrouwbaarheid

Schaalbaarheid

Beveiliging

DevOps

Kostenoptimalisatie

De grootte en het starten van een proefversie van Azure

Dit scenario implementeren

Volgende stappen

Verwante resources

Feedback

Feedback

Aanvullende resources