Ideeën voor oplossingen
Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke gebruiksvoorbeelden, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door gitHub-feedback te geven.
Dit artikel biedt een oplossing voor een datawarehouse voor ondernemingen in Azure die:
- Brengt al uw gegevens samen, ongeacht de schaal of indeling.
- Biedt een manier voor al uw gebruikers om inzicht te krijgen in uw gegevens via analytische dashboards, operationele rapporten en geavanceerde analyses.
Apache® en Apache Spark zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Het gebruik van deze markeringen impliceert geen goedkeuring door De Apache Software Foundation.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
- Azure Synapse Analytics-pijplijnen bevatten gestructureerde, ongestructureerde en semi-gestructureerde gegevens, zoals logboeken, bestanden en media. De pijplijnen slaan de gegevens op in Azure Data Lake Storage.
- Apache Spark-pools in Azure Synapse Analytics schonen en transformeren de Data Lake Storage gegevens.
- Azure Synapse Analytics combineert de verwerkte gegevens met bestaande gestructureerde gegevens, waardoor er één geïntegreerde gegevenshub ontstaat.
- Een toegewezen SQL-pool maakt de gegevens beschikbaar voor operationele rapporten en analytische dashboards die inzichten afleiden. Azure Analysis Services biedt de rapporten en dashboards aan duizenden eindgebruikers.
Onderdelen
- Azure Synapse Analytics is een analyseservice voor datawarehouses en big data-systemen. Dit hulpprogramma maakt gebruik van een enorm parallelle verwerkingsarchitectuur en heeft een diepgaande integratie met Azure-services.
- Azure Synapse Analytics-pijplijnen bieden u een manier om werkstromen te maken, te plannen en te organiseren, zoals etl-werkstromen (extraheren, laden, transformeren, transformeren) en etl-werkstromen (extraheren, transformeren, laden).
- Azure Blob Storage biedt zeer schaalbare, rendabele objectopslag voor elk type ongestructureerde gegevens, zoals afbeeldingen, video's, audio, documenten en meer.
- Data Lake Storage is een opslagopslagplaats met een grote hoeveelheid gegevens in de oorspronkelijke, onbewerkte indeling. Data Lake Storage is gebouwd op Blob Storage. Als gevolg hiervan biedt Data Lake Storage de schaalbaarheid, gelaagde opslag, hoge beschikbaarheid en noodherstelmogelijkheden van Blob Storage.
- Azure Synapse Analytics Spark-pools bieden een framework voor parallelle verwerking dat ondersteuning biedt voor verwerking in het geheugen om de prestaties van analysetoepassingen voor big data te verbeteren.
- Analysis Services is een zakelijke analyse-engine die gebruikers een eenvoudige manier biedt om ad-hocgegevensanalyse uit te voeren. U kunt Analysis Services gebruiken om bedrijfsoplossingen op schaal te beheren, te testen en te leveren.
- Power BI is een suite met hulpprogramma's voor bedrijfsanalyse die inzichten in uw hele organisatie bieden. U kunt Power BI gebruiken om verbinding te maken met honderden gegevensbronnen, gegevensvoorbereiding te vereenvoudigen en ad-hocanalyse te stimuleren. U kunt ook prachtige rapporten maken en deze publiceren voor uw organisatie om te gebruiken op internet en op mobiele apparaten.
Scenariodetails
Een datawarehouse voor ondernemingen brengt al uw gegevens samen, ongeacht de bron, indeling of schaal. Een datawarehouse biedt u ook een manier om krachtige analyses op uw gegevens uit te voeren, zodat u inzichten kunt verkrijgen via analytische dashboards, operationele rapporten en geavanceerde analyses.
Met deze oplossing wordt een datawarehouse gemaakt dat:
- Is één bron van waarheid voor uw gegevens.
- Integreert relationele gegevensbronnen met andere ongestructureerde gegevenssets.
- Maakt gebruik van semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.
Deze oplossing maakt gebruik van Azure Synapse Analytics-pijplijnen om gegevens te integreren in een geïntegreerd platform. Deze pijplijnen bieden ELT- en ETL-mogelijkheden. U kunt de pijplijnen gebruiken om gegevens te verplaatsen in gegevensgestuurde werkstromen. De pijplijnen werken met verschillende gegevensindelingen en -structuren.
De pijplijnen slaan de gegevens op in Data Lake Storage, dat is gebouwd op Blob Storage. Deze opslagservice kan grote hoeveelheden ongestructureerde gegevens verwerken.
Azure Synapse Analytics Spark-pools vormen een belangrijk onderdeel van de oplossing. Deze pools schonen en transformeren gegevens die zijn opgeslagen in Azure. Hun framework voor parallelle verwerking ondersteunt verwerking in het geheugen voor snelheid en efficiëntie. De pools bieden ook ondersteuning voor automatisch schalen, zodat ze indien nodig knooppunten kunnen toevoegen of verwijderen.
Een toegewezen SQL-pool maakt de verwerkte gegevens beschikbaar voor analyses met hoge prestaties. In deze pool worden gegevens opgeslagen in relationele tabellen met kolomopslag, een indeling die de kosten van gegevensopslag aanzienlijk verlaagt. Het verbetert ook de queryprestaties, zodat u analyses op grote schaal kunt uitvoeren.
Potentiële gebruikscases
U kunt deze oplossing gebruiken in scenario's zoals de volgende scenario's waarbij grote hoeveelheden gegevens zijn betrokken:
- IoT-apparaatintegratie
- Platformen voor klantgegevens
- Natuurlijke taalverwerking
- Machine learning-algoritmen
Prijzen
Als u een schatting van de kosten van deze oplossing wilt bekijken, bekijkt u een prijsvoorbeeld in de prijscalculator.
Volgende stappen
- documentatie voor Azure Synapse Analytics
- documentatie voor Azure Synapse Analytics-pijplijnen
- Inleiding tot objectopslag in Azure
- Azure Synapse Analytics Spark-pools
- Documentatie voor Analysis Services
- Documentatie voor Power BI