Hoe Azure Synapse Analytics werkt

Voltooid

Om de analysebehoeften van de huidige organisaties te ondersteunen, combineert Azure Synapse Analytics een gecentraliseerde service voor gegevensopslag en -verwerking met een uitbreidbare architectuur waarmee u veelgebruikte gegevensarchieven, verwerkingsplatforms en visualisatiehulpprogramma's kunt integreren.

Een Azure Synapse Analytics-werkruimte maken en gebruiken

Een Synapse Analytics-werkruimte definieert een exemplaar van de Synapse Analytics-service waarin u de services en gegevensbronnen kunt beheren die nodig zijn voor uw analyseoplossing. U kunt een Synapse Analytics-werkruimte in een Azure-abonnement interactief maken met behulp van Azure Portal of u kunt de implementatie automatiseren met behulp van Azure PowerShell, de Azure-opdrachtregelinterface (CLI) of met een Azure Resource Manager- of Bicep-sjabloon.

Nadat u een Synapse Analytics-werkruimte hebt gemaakt, kunt u de services hierin beheren en hiermee gegevensanalysetaken uitvoeren met behulp van Synapse Studio; een webportal voor Azure Synapse Analytics.

Screenshot of Azure Synapse Studio.

Werken met bestanden in een data lake

Een van de kernresources in een Synapse Analytics-werkruimte is een data lake waarin gegevensbestanden op schaal kunnen worden opgeslagen en verwerkt. Een werkruimte heeft doorgaans een standaard data lake, die wordt geïmplementeerd als een gekoppelde service aan een Azure Data Lake Storage Gen2-container. U kunt gekoppelde services toevoegen voor meerdere data lakes die naar behoefte zijn gebaseerd op verschillende opslagplatforms.

Screenshot of a data lake linked service in Azure Studio.

Gegevens opnemen en transformeren met pijplijnen

In de meeste oplossingen voor zakelijke gegevensanalyse worden gegevens geëxtraheerd uit meerdere operationele bronnen en overgebracht naar een centrale data lake of datawarehouse voor analyse. Azure Synapse Analytics bevat ingebouwde ondersteuning voor het maken, uitvoeren en beheren van pijplijnen waarmee de activiteiten worden ingedeeld die nodig zijn om gegevens op te halen uit een reeks bronnen, de gegevens naar behoefte te transformeren en de resulterende getransformeerde gegevens in een analytische opslag te laden.

Screenshot of a pipeline in Azure Synapse Studio.

Notitie

Pijplijnen in Azure Synapse Analytics zijn gebaseerd op dezelfde onderliggende technologie als Azure Data Factory. Als u al bekend bent met Azure Data Factory, kunt u gebruikmaken van uw bestaande vaardigheden voor het bouwen van oplossingen voor gegevensopname en transformatie in Azure Synapse Analytics.

Gegevens opvragen en bewerken met SQL

Structured Query Language (SQL) is een alomtegenwoordige taal voor het opvragen en bewerken van gegevens, en vormt de basis voor relationele databases, waaronder het populaire Microsoft SQL Server-databaseplatform. Azure Synapse Analytics biedt ondersteuning voor op SQL gebaseerde gegevensquery's en manipulatie via twee soorten SQL-pools die zijn gebaseerd op de relationele SQL Server-database-engine:

  • Een ingebouwde serverloze pool die is geoptimaliseerd voor het gebruik van relationele SQL-semantiek om query's uit te voeren op gegevens op basis van bestanden in een data lake.
  • Aangepaste toegewezen SQL-pools die relationele datawarehouses hosten.

Het Azure Synapse SQL-systeem maakt gebruik van een gedistribueerd queryverwerkingsmodel om SQL-bewerkingen te parallelliseren, wat resulteert in een zeer schaalbare oplossing voor relationele gegevensverwerking. U kunt de ingebouwde serverloze pool gebruiken voor kosteneffectieve analyse en verwerking van bestandsgegevens in de data lake en toegewezen SQL-pools gebruiken om relationele datawarehouses te maken voor het modelleren en rapporteren van zakelijke gegevens.

Screenshot of a SQL query and databases in Azure Synapse Studio.

Gegevens verwerken en analyseren met Apache Spark

Apache Spark is een opensource-platform voor big data-analyses. Spark voert gedistribueerde verwerking van bestanden in een data lake uit door taken uit te voeren die kunnen worden geïmplementeerd met behulp van een reeks ondersteunde programmeertalen. Ondersteunde talen in Spark zijn Python, Scala, Java, SQL en C#.

In Azure Synapse Analytics kunt u een of meer Spark-pools maken en interactieve notebooks gebruiken om code en notities te combineren terwijl u oplossingen bouwt voor gegevensanalyse, machine learning en gegevensvisualisatie.

Screenshot of a Spark notebook in Azure Synapse Studio.

Gegevens verkennen met Data Explorer

Azure Synapse Data Explorer is een engine voor gegevensverwerking in Azure Synapse Analytics die is gebaseerd op de Azure Data Explorer-service. Data Explorer maakt gebruik van een intuïtieve querysyntaxis met de naam Kusto-querytaal (KQL) om een analyse met hoge prestaties en lage latentie van batch- en streaminggegevens mogelijk te maken.

Screenshot of a Kusto Query Language script in Azure Synapse Studio.

Integreren met andere Azure-gegevensservices

Azure Synapse Analytics kan worden geïntegreerd met andere Azure-gegevensservices voor end-to-end analyseoplossingen. Geïntegreerde oplossingen zijn onder andere:

  • Azure Synapse Link maakt near-realtime synchronisatie mogelijk tussen operationele gegevens in Azure Cosmos DB, Azure SQL Database, SQL Server en Microsoft Power Platform Dataverse en analytische gegevensopslag die kunnen worden opgevraagd in Azure Synapse Analytics.
  • Met Microsoft Power BI-integratie kunnen gegevensanalisten een Power BI-werkruimte integreren in een Synapse-werkruimte en interactieve gegevensvisualisatie uitvoeren in Azure Synapse Studio.
  • Met Microsoft Purview-integratie kunnen organisaties gegevensassets in Azure Synapse Analytics catalogiseren en eenvoudiger gegevensassets vinden en gegevensherkomst bijhouden bij het implementeren van gegevenspijplijnen die gegevens opnemen in Azure Synapse Analytics.
  • Met Azure Machine Learning-integratie kunnen gegevensanalisten en gegevenswetenschappers voorspellende modeltraining en -verbruik integreren in analytische oplossingen.