Data mesh operationeel maken voor AI/ML domain driven feature engineering

Data mesh helpt organisaties bij de overstap van een gecentraliseerd data lake of datawarehouse naar een domeingestuurde decentralisatie van analysegegevens die worden onderstreept door vier principes: Domeineigendom, Gegevens als een product, Selfservice Data Platform en Federatief rekenkundig beheer. Data mesh biedt de voordelen van gedistribueerd gegevenseigendom en verbeterde gegevenskwaliteit en -governance die het bedrijf en de time-to-value voor organisaties versnellen.

Data mesh-implementatie

Een typische implementatie van data mesh omvat domeinteams met data engineers die gegevenspijplijnen bouwen. Het team onderhoudt operationele en analytische gegevensarchieven, zoals data lakes, datawarehouse of data lakehouse. Ze geven de pijplijnen vrij als gegevensproducten die andere domeinteams of data science-teams kunnen gebruiken. Andere teams gebruiken de gegevensproducten met behulp van een centraal platform voor gegevensbeheer, zoals wordt weergegeven in het volgende diagram.

Architectuurdiagram met een data mesh-implementatie.

Data mesh is duidelijk over de wijze waarop gegevensproducten getransformeerde en geaggregeerde gegevenssets voor business intelligence dienen. Maar het is niet expliciet over de aanpak die organisaties moeten gebruiken om AI/ML-modellen te bouwen. Er zijn ook geen richtlijnen voor het structuren van hun data science-teams, het beheer van AI/ML-modellen en het delen van AI/ML-modellen of -functies tussen domeinteams.

In de volgende sectie worden een aantal strategieën beschreven die organisaties kunnen gebruiken om AI/ML-mogelijkheden binnen data mesh te ontwikkelen. En u ziet een voorstel voor een strategie voor domeingestuurde functie-engineering of functie-mesh.

AI/ML-strategieën voor data mesh

Een algemene strategie is dat de organisatie data science-teams als gegevensconsumers in gebruik neemt. Deze teams hebben toegang tot verschillende domeingegevensproducten in data mesh volgens de use-case. Ze voeren gegevensverkenning en functie-engineering uit om AI/ML-modellen te ontwikkelen en te bouwen. In sommige gevallen ontwikkelen domeinteams ook hun eigen AI/ML-modellen door hun gegevens en het gegevensproduct van andere teams te gebruiken om nieuwe functies uit te breiden en af te leiden.

Functie-engineering is de kern van het bouwen van modellen en is doorgaans complex en vereist domeinexpertise. De bovenstaande strategie kan tijdrovend zijn omdat data science-teams vervolgens verschillende gegevensproducten moeten analyseren. Ze hebben mogelijk geen volledige domeinkennis om functies van hoge kwaliteit te bouwen. Gebrek aan domeinkennis kan leiden tot dubbele functie-engineering-inspanningen tussen domeinteams. Ook problemen zoals reproduceerbaarheid van AI-/ML-modellen vanwege inconsistente functiesets in verschillende teams. Data science- of domeinteams moeten functies voortdurend vernieuwen naarmate er nieuwe versies van gegevensproducten worden uitgebracht.

Een andere strategie is dat domeinteams AI/ML-modellen vrijgeven in een indeling zoals Open Neural Network Exchange (ONNX), maar deze resultaten zijn zwarte vakken en het combineren van AI/modellen of functies in verschillende domeinen zou lastig zijn.

Is er een manier om het bouwen van AI/ML-modellen te decentraliseren binnen domein- en data science-teams om de uitdagingen aan te pakken? De voorgestelde domeingestuurde functie-engineering of functie mesh-strategie is een optie.

Domeingestuurde functie-engineering of functie-mesh

De domeingestuurde functie-engineering of functie mesh-strategie biedt een gedecentraliseerde benadering voor het bouwen van AI/ML-modellen in een data mesh-instelling. In het volgende diagram ziet u de strategie en hoe deze de vier belangrijkste principes van data mesh aanpakt.

Architectuurdiagram met de domeingestuurde functie-engineering en de mesh-strategie voor functies.

Functie-engineering van domeineigendom door domeinteams

In deze strategie koppelt de organisatie gegevenswetenschappers aan data engineers in een domeinteam om gegevensverkenning uit te voeren op schone en getransformeerde gegevens in bijvoorbeeld een data lake. Engineering genereert functies die worden opgeslagen in een onderdelenarchief. Onderdelenarchief is een gegevensopslagplaats die functies biedt voor training en deductie en die helpt bij het bijhouden van de functieversie, metagegevens en statistieken. Met deze mogelijkheid kunnen de gegevenswetenschappers in het domeinteam nauw samenwerken met domeinexperts en de functies vernieuwd houden als gegevens in het domein worden gewijzigd.

Gegevens als een product: functiesets

Functies die zijn gegenereerd door het domeinteam, aangeduid als domein- of lokale functies, publiceren naar de gegevenscatalogus in het data governance-platform als functiesets. Deze functiesets kunnen worden gebruikt door data science-teams of andere domeinteams voor het bouwen van AI/ML-modellen. Tijdens de ontwikkeling van AI/ML-modellen kunnen de data science- of domeinteams domeinfuncties combineren om nieuwe functies te produceren, gedeelde of globale functies genoemd. Deze gedeelde functies worden weer gepubliceerd naar de catalogus met functiesets voor gebruik.

Selfservice voor gegevensplatform en federatief rekenbeheer: standaardisatie en kwaliteit van functies

Deze strategie kan leiden tot een andere technologiestack voor pijplijnen voor functie-engineering en inconsistente functiedefinities tussen domeinteams. Selfservice-principes voor gegevensplatforms zorgen ervoor dat domeinteams gebruikmaken van gemeenschappelijke infrastructuur en hulpprogramma's om de pijplijnen voor functie-engineering te bouwen en toegangsbeheer af te dwingen. Het principe van federated Computational Governance zorgt voor interoperabiliteit van functiesets door middel van wereldwijde standaardisatie en controles op de kwaliteit van functies.

Het gebruik van domeingestuurde functie-engineering of functie mesh-strategie biedt een gedecentraliseerde benadering voor het bouwen van AI/ML-modellen voor organisaties om tijd te besparen bij het ontwikkelen van AI/ML-modellen. Deze strategie helpt functies consistent te houden tussen domeinteams. Het voorkomt dubbel werk en resulteert in hoogwaardige functies voor nauwkeurigere AI/ML-modellen, waardoor de waarde voor het bedrijf wordt verhoogd.

Data mesh-implementatie in Azure

In dit artikel worden de concepten beschreven voor het operationeel maken van AI/ML in een data-mesh en worden hulpprogramma's of architecturen voor het bouwen van deze strategieën niet behandeld. Azure biedt functies zoals Azure Databricks Feature Store en Feathr van LinkedIn. U kunt aangepaste Microsoft Purview-connectors ontwikkelen voor het beheren en beheren van functiearchieven.

Volgende stappen