End-to-end-analyse met Azure Synapse

Azure Synapse Analytics

Azure Cosmos DB

Azure Data Factory

Azure Databricks

Azure Event Hubs

De oplossing die in dit artikel wordt beschreven, combineert een reeks Azure-services die gegevens en inzichten uit verschillende bronnen (gestructureerd, semi-gestructureerd, ongestructureerd en streaming) opnemen, opslaan, verwerken, verrijken en leveren.

Architectuur

Een Visio-bestand van deze architectuur downloaden.

Notitie

De services die door deze architectuur worden behandeld, zijn slechts een subset van een veel grotere familie van Azure-services. Vergelijkbare resultaten kunnen worden bereikt door gebruik te maken van andere services of functies die niet onder dit ontwerp vallen.
Voor specifieke zakelijke vereisten voor uw analysegebruiksscenario kan het gebruik van verschillende services of functies vereist zijn die niet in dit ontwerp worden overwogen.

Gegevensstroom

De analysegebruiksvoorbeelden die worden behandeld in de architectuur, worden geïllustreerd door de verschillende gegevensbronnen aan de linkerkant van het diagram. Gegevens stromen als volgt door de oplossing vanaf de onderkant:

Notitie

In de volgende secties wordt Azure Data Lake gebruikt als de basis voor gegevens in de verschillende fasen van de gegevenslevenscyclus. Azure Data Lake is als volgt ingedeeld op verschillende lagen en containers:

De onbewerkte laag is het landingsgebied voor gegevens die afkomstig zijn van bronsystemen. Zoals de naam al aangeeft, bevinden gegevens in deze laag zich in onbewerkte, niet-gefilterde en niet-gepurificeerde vorm.
In de volgende fase van de levenscyclus worden gegevens verplaatst naar de verrijkte laag waar gegevens worden opgeschoond, gefilterd en mogelijk getransformeerd.
Gegevens worden vervolgens verplaatst naar de gecureerde laag, waar gegevens die gereed zijn voor de consument worden onderhouden.

Raadpleeg de documentatie voor Data Lake-zones en -containers voor een volledige beoordeling van Azure Data Lake-lagen en -containers en hun gebruik.

Azure-gegevensservices, cloudeigen HTAP met Azure Cosmos DB en Dataverse

Proces

Met Azure Synapse Link voor Azure Cosmos DB en Azure Synapse Link voor Dataverse kunt u bijna realtime analyses uitvoeren op operationele en zakelijke toepassingsgegevens met behulp van de analyse-engines die beschikbaar zijn vanuit uw Azure Synapse-werkruimte: SQL Serverloze en Spark-pools.
Wanneer u Azure Synapse Link voor Azure Cosmos DB gebruikt, gebruikt u een SQL Serverloze query of een Spark-poolnotebook. U kunt toegang krijgen tot de analytische opslag van Azure Cosmos DB en vervolgens gegevenssets uit uw bijna realtime operationele gegevens combineren met gegevens uit uw data lake of vanuit uw datawarehouse.
Wanneer u Azure Synapse Link voor Dataverse gebruikt, gebruikt u een serverloze SQL-query of een Spark-poolnotebook. U kunt toegang krijgen tot de geselecteerde Dataverse-tabellen en vervolgens gegevenssets uit uw bijna realtime zakelijke toepassingen combineren met gegevens uit uw data lake of vanuit uw datawarehouse.

Opslaan

De resulterende gegevenssets van uw serverloze SQL-query's kunnen worden bewaard in uw Data Lake. Als u Spark-notebooks gebruikt, kunnen de resulterende gegevenssets worden bewaard in uw data lake of datawarehouse (SQL-pool).

Serve

Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie en -verkenning. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.
Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.
Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Relationele databases

Opnemen

Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal databases, zowel on-premises als in de cloud. Pijplijnen kunnen worden geactiveerd op basis van een vooraf gedefinieerd schema, in reactie op een gebeurtenis of kunnen expliciet worden aangeroepen via REST API's.

Opslaan

Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.
Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de relationele databases in de onbewerkte laag van uw Azure Data Lake Store Gen 2-gegevens lake te faseren. U kunt de gegevens opslaan in tekstindeling met scheidingstekens of gecomprimeerd als Parquet-bestanden.

Proces

Gebruik gegevensstromen, serverloze SQL-query's of Spark-notebooks om de gegevenssets te valideren, transformeren en verplaatsen van de Raw-laag, via de verrijkte laag en naar uw gecureerde laag in uw data lake.
1. Als onderdeel van uw gegevenstransformaties kunt u machinetrainingsmodellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL - of Spark-notebooks. Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML-modellen van Azure ML.

Serve

U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.
Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.
Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.
Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Semi-gestructureerde gegevensbronnen

Opnemen

Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal semi-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Voorbeeld:
- Gegevens opnemen uit op bestanden gebaseerde bronnen die CSV- of JSON-bestanden bevatten.
- Verbinding maken naar No-SQL-databases, zoals Azure Cosmos DB of MongoDB.
- Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.

Opslaan

Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.
Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de semi-gestructureerde gegevensbronnen, te faseren in de onbewerkte laag van uw Azure Data Lake Store Gen 2-data lake. Sla gegevens op om de oorspronkelijke indeling te behouden, zoals verkregen uit de gegevensbronnen.

Proces

Voor batch-/microbatchpijplijnen gebruikt u gegevensstromen, serverloze SQL-query's of Spark-notebooks om uw gegevenssets te valideren, transformeren en verplaatsen naar uw gecureerde laag in uw data lake. Serverloze SQL-query's stellen onderliggende CSV-, Parquet- of JSON-bestanden beschikbaar als externe tabellen, zodat ze kunnen worden opgevraagd met behulp van T-SQL.
1. Als onderdeel van uw gegevenstransformaties kunt u machine learning-modellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL - of Spark-notebooks. Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML-modellen van Azure ML.
Voor bijna realtime telemetrie- en tijdreeksanalysescenario's gebruikt u Data Explorer-pools om eenvoudig logboeken en IoT-gebeurtenissengegevens op te nemen, samen te voegen en te correleren in meerdere gegevensbronnen. Met Data Explorer-pools kunt u Kusto-query's (KQL) gebruiken om tijdreeksanalyses , georuimtelijke clustering en machine learning-verrijking uit te voeren.

Serve

U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.
Laad relevante gegevens uit de Azure Synapse SQL-pools, Data Explorer-pools of een data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.
Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.
Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Niet-gestructureerde gegevensbronnen

Opnemen

Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal niet-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Voorbeeld:
- Video, afbeelding, audio of vrije tekst opnemen uit bronnen op basis van bestanden die de bronbestanden bevatten.
- Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.

Opslaan

Organiseer uw data lake in de Raw Data Lake-laag door de aanbevolen procedures te volgen over welke lagen moeten worden gemaakt, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.
Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de niet-gestructureerde gegevensbronnen, in de onbewerkte laag van uw Azure Data Lake Store Gen 2-gegevens lake te faseren. Sla gegevens op door de oorspronkelijke indeling te behouden, zoals verkregen uit de gegevensbronnen.

Proces

Gebruik Spark-notebooks om uw gegevenssets te valideren, transformeren, verrijken en verplaatsen van de Raw-laag, via de verrijkte laag en naar uw gecureerde laag in uw data lake.
1. Als onderdeel van uw gegevenstransformaties kunt u machine learning-modellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL - of Spark-notebooks. Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML-modellen van Azure ML.

Serve

U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw datawarehouse-tabellen met behulp van de opdracht COPY voor snelle opname.
Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.
Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.
Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.
Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Streaming

Opnemen

Gebruik Azure Event Hubs of Azure IoT Hubs om gegevensstromen op te nemen die worden gegenereerd door clienttoepassingen of IoT-apparaten. Event Hubs of IoT Hub neemt vervolgens streaminggegevens op en slaat deze op met behoud van de volgorde van ontvangen gebeurtenissen. Consumenten kunnen vervolgens verbinding maken met Event Hubs- of IoT Hub-eindpunten en berichten ophalen voor verwerking.

Opslaan

Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.
Configureer Event Hubs Capture - of IoT Hub Storage-eindpunten om een kopie van de gebeurtenissen op te slaan in de Raw-laag van uw Azure Data Lake Store Gen 2-data lake. Met deze functie wordt het 'koude pad' van het lambda-architectuurpatroon geïmplementeerd en kunt u historische en trendanalyse uitvoeren op de stroomgegevens die zijn opgeslagen in uw data lake met behulp van SQL Serverloze query's of Spark-notebooks volgens het patroon voor semi-gestructureerde gegevensbronnen die hierboven worden beschreven.

Proces

Gebruik voor realtime inzichten een Stream Analytics-taak om het dynamische pad van het lambda-architectuurpatroon te implementeren en inzichten af te leiden van de streamgegevens die onderweg zijn. Definieer ten minste één invoer voor de gegevensstroom die afkomstig is van uw Event Hubs of IoT Hub, één query voor het verwerken van de invoergegevensstroom en één Power BI-uitvoer waarnaar de queryresultaten worden verzonden.
1. Als onderdeel van uw gegevensverwerking met Stream Analytics kunt u machine learning-modellen aanroepen om uw streamgegevenssets te verrijken en zakelijke beslissingen te nemen op basis van de gegenereerde voorspellingen. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure Cognitive Services of van aangepaste ML-modellen in Azure Machine Learning.
Gebruik andere Stream Analytics-taakuitvoer om verwerkte gebeurtenissen te verzenden naar Azure Synapse SQL-pools of Data Explorer-pools voor verdere analysegebruiksscenario's.
Voor bijna realtime telemetrie- en tijdreeksanalysescenario's gebruikt u Data Explorer-pools om eenvoudig IoT-gebeurtenissen rechtstreeks vanuit Event Hubs of IoT Hubs op te nemen. Met Data Explorer-pools kunt u Kusto-query's (KQL) gebruiken om tijdreeksanalyses , georuimtelijke clustering en machine learning-verrijking uit te voeren.

Serve

Bedrijfsanalisten gebruiken vervolgens realtime Power BI-gegevenssets en dashboardmogelijkheden om de snel veranderende inzichten te visualiseren die worden gegenereerd door uw Stream Analytics-query.
Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.
Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte, kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Onderdelen

De volgende Azure-services zijn gebruikt in de architectuur:

Alternatieven

In de bovenstaande architectuur zijn Azure Synapse-pijplijnen verantwoordelijk voor het organiseren van gegevenspijplijnen. Azure Data Factory-pijplijnen bieden ook dezelfde mogelijkheden als beschreven in dit artikel.
Azure Databricks kan ook worden gebruikt als de rekenengine die wordt gebruikt om gestructureerde en ongestructureerde gegevens rechtstreeks op de data lake te verwerken.
In de bovenstaande architectuur is Azure Stream Analytics de service die verantwoordelijk is voor het verwerken van streaminggegevens. Azure Synapse Spark-pools en Azure Databricks kunnen ook worden gebruikt om dezelfde rol uit te voeren door notebooks uit te voeren.
Azure HDInsight Kafka-clusters kunnen ook worden gebruikt om streaminggegevens op te nemen en het juiste niveau van prestaties en schaalbaarheid te bieden dat vereist is voor grote streamingworkloads.
U kunt ook gebruikmaken van Azure Functions om aangepaste ML-modellen van Azure Cognitive Services of Aangepaste ML-modellen van Azure Machine Learning aan te roepen vanuit een Azure Synapse-pijplijn.
Zie voor vergelijkingen van andere alternatieven:

Scenariodetails

In dit voorbeeldscenario ziet u hoe u Azure Synapse Analytics gebruikt met de uitgebreide familie van Azure Data Services om een modern gegevensplatform te bouwen dat de meest voorkomende gegevensuitdagingen in een organisatie kan verwerken.

Potentiële gebruikscases

Deze benadering kan ook worden gebruikt voor het volgende:

Stel een gegevensproductarchitectuur in, die bestaat uit een datawarehouse voor gestructureerde gegevens en een data lake voor semi-gestructureerde en ongestructureerde gegevens. U kunt ervoor kiezen om één gegevensproduct te implementeren voor gecentraliseerde omgevingen of meerdere gegevensproducten voor gedistribueerde omgevingen, zoals Data Mesh. Zie meer informatie over Gegevensbeheer en Data Landing Zones.
Integreer relationele gegevensbronnen met andere ongestructureerde gegevenssets, met behulp van technologieën voor verwerking van big data.
Gebruik semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.
Deel gegevenssets binnen de organisatie of met vertrouwde externe partners.
Implementeer oplossingen voor kennisanalyse om waardevolle bedrijfsgegevens te extraheren die verborgen zijn in afbeeldingen, PDF's, documenten, enzovoort.

Aanbevelingen

Ontdekken en beheren

Gegevensbeheer is een veelvoorkomende uitdaging in grote bedrijfsomgevingen. Aan de ene kant moeten bedrijfsanalisten gegevensassets kunnen detecteren en begrijpen die hen kunnen helpen bij het oplossen van zakelijke problemen. Aan de andere kant willen chief data officers inzicht krijgen in privacy en beveiliging van bedrijfsgegevens.

Microsoft Purview

Gebruik Microsoft Purview voor gegevensdetectie en inzichten over uw gegevensassets, gegevensclassificatie en gevoeligheid, die betrekking heeft op het hele landschap van de organisatiegegevens.
Microsoft Purview kan u helpen bij het onderhouden van een zakelijke woordenlijst met de specifieke zakelijke terminologie die gebruikers nodig hebben om inzicht te krijgen in de semantiek van wat gegevenssets betekenen en hoe ze moeten worden gebruikt in de hele organisatie.
U kunt al uw gegevensbronnen registreren en organiseren in verzamelingen, die ook dienen als een beveiligingsgrens voor uw metagegevens.
Stel regelmatig scans in om automatisch relevante metagegevens over gegevensassets in de organisatie te catalogiseren en bij te werken. Microsoft Purview kan ook automatisch gegevensherkomstgegevens toevoegen op basis van gegevens uit Azure Data Factory- of Azure Synapse-pijplijnen.
Gegevensclassificatie en vertrouwelijkheidslabels voor gegevens kunnen automatisch worden toegevoegd aan uw gegevensassets op basis van vooraf geconfigureerde of douaneregels die tijdens de reguliere scans worden toegepast.
Professionals voor gegevensbeheer kunnen de rapporten en inzichten die door Microsoft Purview worden gegenereerd, gebruiken om de controle over het hele gegevenslandschap te behouden en de organisatie te beschermen tegen beveiligings- en privacyproblemen.

Platformservices

Als u de kwaliteit van uw Azure-oplossingen wilt verbeteren, volgt u de aanbevelingen en richtlijnen die zijn gedefinieerd in het Goed ontworpen Framework van Azure vijf pijlers van architectuurpijlers: Kostenoptimalisatie, Operationele uitmuntendheid, Prestatie-efficiëntie, Betrouwbaarheid en Beveiliging.

Na deze aanbevelingen moeten de onderstaande services worden beschouwd als onderdeel van het ontwerp:

Microsoft Entra ID: identiteitsservices, eenmalige aanmelding en meervoudige verificatie in Azure-workloads.
Microsoft Cost Management: financieel beheer over uw Azure-workloads.
Azure Key Vault: veilig referentie- en certificaatbeheer. Azure Synapse Pipelines, Azure Synapse Spark-pools en Azure ML kunnen bijvoorbeeld referenties en certificaten ophalen uit Azure Key Vault die worden gebruikt om veilig toegang te krijgen tot gegevensarchieven.
Azure Monitor: telemetriegegevens van uw Azure-resources verzamelen, analyseren en erop reageren om proactief problemen te identificeren en de prestaties en betrouwbaarheid te maximaliseren.
Microsoft Defender voor Cloud: de beveiligingspostuur van uw Azure-workloads versterken en bewaken.
Azure DevOps & GitHub: DevOps-procedures implementeren om automatisering en naleving af te dwingen voor uw workloadontwikkelings- en implementatiepijplijnen voor Azure Synapse en Azure ML.
Azure Policy: organisatiestandaarden en -governance implementeren voor resourceconsistentie, naleving van regelgeving, beveiliging, kosten en beheer.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

De technologieën in deze architectuur zijn gekozen omdat elk van deze technologieën de benodigde functionaliteit biedt voor het afhandelen van de meest voorkomende gegevensuitdagingen in een organisatie. Deze services voldoen aan de vereisten voor schaalbaarheid en beschikbaarheid, terwijl ze de kosten kunnen beheren. De services die door deze architectuur worden behandeld, zijn slechts een subset van een veel grotere familie van Azure-services. Vergelijkbare resultaten kunnen worden bereikt door gebruik te maken van andere services of functies die niet onder dit ontwerp vallen.

Specifieke zakelijke vereisten voor uw analysegebruiksscenario's kunnen ook vragen om het gebruik van verschillende services of functies die niet in dit ontwerp worden overwogen.

Vergelijkbare architectuur kan ook worden geïmplementeerd voor preproductieomgevingen waar u uw workloads kunt ontwikkelen en testen. Houd rekening met de specifieke vereisten voor uw workloads en de mogelijkheden van elke service voor een rendabele preproductieomgeving.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

Gebruik in ieder geval de prijscalculator om een schatting van de kosten te maken. De ideale afzonderlijke prijscategorie en de totale totale kosten van elke service in de architectuur zijn afhankelijk van de hoeveelheid gegevens die moet worden verwerkt en opgeslagen en het verwachte acceptabele prestatieniveau. Gebruik de onderstaande handleiding voor meer informatie over de prijs van elke service:

Met de serverloze architectuur van Azure Synapse Analytics kunt u uw reken- en opslagniveaus onafhankelijk schalen. Rekenresources worden in rekening gebracht op basis van gebruik en u kunt deze resources op aanvraag schalen of onderbreken. Opslagresources worden gefactureerd per terabyte, zodat uw kosten toenemen naarmate u meer gegevens opneemt.
Azure Data Lake Gen 2 wordt in rekening gebracht op basis van de hoeveelheid gegevens die is opgeslagen en op basis van het aantal transacties voor het lezen en schrijven van gegevens.
Azure Event Hubs en Azure IoT Hubs worden in rekening gebracht op basis van de hoeveelheid rekenresources die nodig zijn om uw berichtstromen te verwerken.
Azure Machine Learning-kosten zijn afkomstig van de hoeveelheid rekenresources die worden gebruikt voor het trainen en implementeren van uw machine learning-modellen.
Cognitive Services wordt in rekening gebracht op basis van het aantal aanroepen dat u uitvoert voor de service-API's.
Microsoft Purview is geprijsd op basis van het aantal gegevensassets in de catalogus en de hoeveelheid rekenkracht die nodig is om ze te scannen.
Azure Stream Analytics wordt in rekening gebracht op basis van de hoeveelheid rekenkracht die nodig is om uw streamquery's te verwerken.
Power BI heeft verschillende productopties voor verschillende vereisten. Power BI Embedded biedt een op Azure gebaseerde optie voor het insluiten van Power BI-functionaliteit in uw toepassingen. Een Power BI Embedded-exemplaar is opgenomen in het bovenstaande prijsvoorbeeld.
Azure Cosmos DB is geprijsd op basis van de hoeveelheid opslag- en rekenresources die nodig zijn voor uw databases.

Dit scenario implementeren

Deze implementatieversneller biedt u de mogelijkheid om de volledige referentiearchitectuur te implementeren of te kiezen welke workloads u nodig hebt voor uw analysegebruiksscenario. U kunt ook selecteren of services toegankelijk zijn via openbare eindpunten of dat ze alleen toegankelijk zijn via privé-eindpunten.

Azure-portal
Azure-CLI

Gebruik de volgende knop om de verwijzing te implementeren met behulp van Azure Portal.

Voer de volgende opdracht uit om de volledige referentiearchitectuur te implementeren met behulp van openbare eindpunten. Klik op de knop Uitproberen om een ingesloten shell te gebruiken.

az deployment group create --resource-group azsynapse-e2e \
    --template-uri https://raw.githubusercontent.com/Azure/azure-synapse-analytics-end2end/main/Deploy/AzureAnalyticsE2E.json \
    --parameters networkIsolationMode=default synapseSqlAdminPassword=use-complex-password-here

Voer de volgende opdracht uit om de volledige referentiearchitectuur te implementeren met behulp van privé-eindpunten. Klik op de knop Uitproberen om een ingesloten shell te gebruiken.

az deployment group create --resource-group azsynapse-e2e \
    --template-uri https://raw.githubusercontent.com/Azure/azure-synapse-analytics-end2end/main/Deploy/AzureAnalyticsE2E.json \
    --parameters networkIsolationMode=vNet synapseSqlAdminPassword=use-complex-password-here

Zie de GitHub-opslagplaats voor implementatieversneller met documentatie en code die wordt gebruikt om deze oplossing te definiëren voor gedetailleerde informatie en aanvullende implementatieopties.

Medewerkers

Dit artikel wordt bijgewerkt en onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Azure-Azure | Principal MTC Technical Architect

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen

Bekijk de richtlijnen die zijn gedefinieerd in het Azure-scenario voor gegevensbeheer en analyse voor schaalbare analyseomgevingen in Azure.
Verken de Data-engineer Leertrajecten van Microsoft voor meer trainingsinhoud en labs over de services die betrokken zijn bij deze referentiearchitectuur.
Bekijk de documentatie en implementeer de referentiearchitectuur met behulp van de implementatieversneller die beschikbaar is via GitHub.

Delen via

End-to-end-analyse met Azure Synapse

Architectuur

Gegevensstroom

Azure-gegevensservices, cloudeigen HTAP met Azure Cosmos DB en Dataverse

Proces

Opslaan

Serve

Relationele databases

Opnemen

Opslaan

Proces

Serve

Semi-gestructureerde gegevensbronnen

Opnemen

Opslaan

Proces

Serve

Niet-gestructureerde gegevensbronnen

Opnemen

Opslaan

Proces

Serve

Streaming

Opnemen

Opslaan

Proces

Serve

Onderdelen

Alternatieven

Scenariodetails

Potentiële gebruikscases

Aanbevelingen

Ontdekken en beheren

Microsoft Purview

Platformservices

Overwegingen

Kostenoptimalisatie

Dit scenario implementeren

Medewerkers

Volgende stappen

Verwante resources

Feedback

Feedback

Aanvullende resources