Wat is een data mesh?

Data mesh is een architectuurpatroon voor het implementeren van zakelijke gegevensplatforms in grote en complexe organisaties. Data mesh helpt bij het schalen van de acceptatie van analyses buiten één platform en één implementatieteam.

Achtergrond

De noodzaak van analyses is niet nieuw. Organisaties hebben altijd bedrijfsprestaties moeten analyseren en dit hebben gedaan door computers te gebruiken sinds hun introductie. Rond de jaren '80 zijn organisaties begonnen met het bouwen van datawarehousingoplossingen met behulp van databases speciaal voor beslissingsondersteuning. Deze datawarehousingoplossingen dienen organisaties lange tijd goed.

Als er echter zakelijke wijzigingen worden aangebracht en meer uiteenlopende gegevens worden gegenereerd, zijn datawarehousingoplossingen die gebruikmaken van relationele databases mogelijk niet altijd de beste oplossing. In de jaren '2000 werd big data een gemeenschappelijke term. Bedrijven hebben nieuwe oplossingen aangenomen waarmee grote hoeveelheden diverse gegevens kunnen worden geanalyseerd die met grote snelheid kunnen worden gegenereerd. Dit omvat technologie, zoals data lakes en uitschaaloplossingen die grote hoeveelheden gegevens analyseren.

In de afgelopen jaren gebruiken veel organisaties moderne architectuur- en analytische patronen die datawarehousingtechnologieën en recentere big data-technologieën combineren.

Diagram of architecture.

Sommige organisaties ondervinden echter problemen bij het implementeren van analytische oplossingen die gebruikmaken van analytische patronen. Deze oplossingen worden meestal nog steeds geïmplementeerd als monolithische oplossingen, waarbij één team de platformprovider is en het team gegevensintegratie uitvoert. Kleinere organisaties en organisaties met een hoge mate van centralisatie vanuit het perspectief van teaminstellingen kunnen één team gebruiken. Een grotere organisatie die slechts één team gebruikt, creëert echter vaak een knelpunt. Dit knelpunt veroorzaakt een enorme achterstand, wat resulteert in delen van een organisatie die wacht op services voor gegevensintegratie en analytische oplossingen.

Dit patroon wordt gebruikelijker wanneer organisaties moderne data science-oplossingen gebruiken. Veel moderne data science-oplossingen vereisen meer gegevens dan traditionele business intelligence-oplossingen in het verleden.

De recente overstap naar het gebruik van microservices als een toepassingsontwikkelingspatroon is een ander stuurprogramma voor lange achterstanden rond gegevensintegratie, omdat dit het aantal gegevensbronnen verhoogt.

Eén team dat alle gegevensopname op één platform in een grote organisatie verwerkt, kan ook problematisch zijn. Eén team heeft zelden experts voor elke gegevensbron. De meeste organisaties zijn gedecentraliseerd en gedistribueerd vanuit bedrijfsperspectief. Verschillende bedrijfseenheden en afdelingen verwerken verschillende onderdelen van de bedrijfsactiviteiten, zodat gegevensexperts zich doorgaans verspreid over verschillende sectoren bevinden.

Er is onlangs een nieuw architectuurpatroon met de naam data mesh geïntroduceerd om deze problemen op te lossen. Het doel van Data Mesh is om gedistribueerde teams te laten werken met en informatie te delen op een gedecentraliseerde en flexibele manier.

Data mesh is een technisch patroon dat ook organisatorische wijzigingen vereist. De voordelen van een data mesh-benadering worden bereikt door multidisciplinaire teams te implementeren die gegevensproducten publiceren en gebruiken.

De volgende concepten zijn een basis voor het begrijpen van data mesh-architectuur:

  • Gegevensdomeinen
  • Gegevensproducten
  • Zelfbedieningsplatforms
  • Federatieve governance

Gegevensdomeinen

Gegevensdomeinen vormen de basis van data mesh. Het concept van gegevensdomeinen is afkomstig van DDD (Domain Driven Development), een paradigma dat vaak wordt gebruikt in softwareontwikkeling om complexe softwareoplossingen te modelleren. In data mesh is een gegevensdomein een manier om grenzen rond uw bedrijfsgegevens te definiëren. Domeinen kunnen variëren, afhankelijk van uw organisatie, en in sommige gevallen kunt u domeinen rond uw organisatie definiëren. In andere gevallen kunt u ervoor kiezen gegevensdomeinen te modelleren op basis van uw bedrijfsprocessen of bronsystemen.

Er zijn drie aspecten voor gegevensdomeinen:

  • Uw gekozen grenzen geven zichzelf tot langetermijneigendom. Ze bestaan gedurende een lange periode en hebben eigenaren geïdentificeerd.

  • Uw domeinen moeten overeenkomen met de realiteit, niet alleen theoretische concepten.

  • Uw domeinen moeten atomische integriteit hebben. Als gebieden geen relatie met elkaar hebben, moet u ze niet combineren in een domein.

Zie Gegevensdomeinen voor meer informatie over gegevensdomeinen en hoe u deze moet definiëren.

Gegevensproducten

Gegevensproducten zijn een ander belangrijk onderdeel van data mesh. Gegevensproducten zijn gericht op productdenken naar de wereld van gegevens. Om ervoor te zorgen dat uw gegevensproduct succesvol is, moet het een langetermijn bedrijfswaarde bieden aan de beoogde gebruikers. In data mesh omvat een gegevensproduct gegevens, codeassets, metagegevens en gerelateerd beleid. Gegevensproducten kunnen worden geleverd als API, rapport, tabel of gegevensset in een data lake.

Een succesvol gegevensproduct moet het volgende zijn:

  • Bruikbaar: Uw product moet gebruikers buiten het directe gegevensdomein hebben.
  • Waardevol: Uw product moet de waarde in de loop van de tijd behouden. Als deze geen langetermijnwaarde heeft, kan deze niet slagen.
  • Haalbaar: uw product moet haalbaar zijn. Als u het niet daadwerkelijk kunt bouwen, kan het product geen succes zijn. Uw product moet haalbaar zijn vanuit zowel een beschikbaarheid van gegevens als een technisch standpunt.

De codeassets van een gegevensproduct bevatten code waarmee het wordt gegenereerd en code die het levert. De codeassets bevatten ook pijplijnen die worden gebruikt om het product en het uiteindelijke rapport van het product te maken.

Zie Gegevensproducten op cloudschaal in Azure voor meer informatie over gegevensproducten op cloudschaal.

Zie Wat is een gegevensproduct? voor specifieke richtlijnen over het gebruik van data mesh.

Zelfbedieningsplatforms

Een kern van data mesh heeft een platform waarmee de gegevensdomeinen hun gegevensproducten zelf kunnen bouwen. Gegevensdomeinen moeten gegevensproducten definiëren met behulp van de hulpprogramma's en processen die relevant zijn voor gebruikers zonder dat ze sterk afhankelijk zijn van een centraal platform of een centraal platformteam. In een data mesh beschikt u over autonome teams die autonome producten ontwikkelen en beheren.

Houd bij het gebruik van decentralisatie en afstemming met zakelijke gebruikers die inzicht hebben in uw gegevens, de generalisten die ook op uw platform werken. Omdat u generalisten hebt, kunt u geen speciale hulpprogramma's hebben waarvoor gespecialiseerde kennis nodig is om te werken als de basis van uw mesh-platform.

U kunt uw zelfbedieningsplatform implementeren door de procedures te volgen die worden beschreven in ontwerpoverwegingen voor zelfbedieningsgegevensplatformen.

Federatieve governance

Wanneer u een zelfbedieningsplatform voor gedistribueerde gegevens gebruikt, moet u meer nadruk leggen op governance. Gebrek aan governance leidt tot silo's en gegevensduplicatie in uw gegevensdomeinen. Feder uw governance, omdat mensen die begrijpen dat de governance nodig is, bestaan binnen uw domein uitgelijnde teams en tussen gegevenseigenaren.

Als u uw federatieve governance wilt maken, implementeert u geautomatiseerd beleid rond zowel platform- als gegevensbehoeften. Gebruik een hoge mate van automatisering voor testen en bewaking. Implementeer een code-first implementatiestrategie voor het afhandelen van standaarden, beleid, gegevensproducten en platformimplementatie als code.

Zie het overzicht van gegevensbeheer voor meer informatie over het implementeren van federatieve governanceaspecten.

Samenvatting

Data mesh kan een effectieve manier zijn om zakelijke gegevensplatforms te implementeren, maar het is niet de beste oplossing voor alle organisaties. Data mesh vereist autonome teams die onafhankelijk kunnen werken. Data mesh werkt het beste in grote en complexe organisaties die onafhankelijke bedrijfseenheden hebben en hun analysemigratie moeten schalen buiten één platform en implementatieteam.

Wanneer u data mesh gebruikt, moet u bij het implementeren van uw governance speciale aandacht geven, zodat u geen silo's maakt. Houd productdenken altijd aan gegevens in de kern van uw implementatie om succes te garanderen.

Volgende stappen

Gegevensdomeinen