Best practices voor Microsoft Purview-implementatie voor analyses op cloudschaal
De landingszone voor gegevensbeheer is verantwoordelijk voor het beheer van het analyseplatform op cloudschaal. Het is afhankelijk van Microsoft Purview om de meeste mogelijkheden voor gegevensbeheer te bieden.
Notitie
In deze richtlijnen in deze sectie worden configuraties uitgelegd die specifiek zijn voor analyses op cloudschaal. Het is een verzameling best practices voor Azure om uw gegevensbeheer te verbeteren met Behulp van Microsoft Purview. De richtlijnen zijn een aanvulling op de officiële Microsoft Purview-documentatie.
Overzicht
Microsoft Purview is een geïntegreerde service voor gegevensbeheer waarmee u uw on-premises, multicloud- en SaaS-gegevens (Software as a Service) kunt beheren en beheren. Maak een holistische, actuele kaart van uw gegevenslandschap met geautomatiseerde gegevensdetectie, classificatie van gevoelige gegevens en end-to-end gegevensherkomst. Schakel gegevenscuratoren in om uw gegevensdomein te beheren en te beveiligen. Zorg dat gebruikers de mogelijkheid hebben om waardevolle, betrouwbare gegevens te vinden.
Fooi
Het is raadzaam om hulpprogramma's van derden van uw keuze te gebruiken om de resterende mogelijkheden van de landingszone voor gegevensbeheer te integreren met Azure die momenteel niet worden ondersteund door Microsoft Purview.
Eén Microsoft Purview-account wordt geïmplementeerd in de landingszone voor gegevensbeheer, die fungeert als een gecentraliseerde gegevenscatalogus. Vanuit de landingszone voor gegevensbeheer kan Microsoft Purview communiceren met elke gegevenslandingszone via een privénetwerkconnectiviteit met behulp van VNet-peering voor gegevensbeheer, data landingszones en zelf-hostende Integration Runtimes. Detectie van gegevensproducten in on-premises gegevensarchieven en andere openbare clouds wordt bereikt door meer implementaties van zelf-hostende integratieruntimes.
Rekeninginstelling
De eerste stap is de implementatie van een Microsoft Purview-account. Tijdens de implementatie van de landingszone voor gegevensbeheer wordt één Microsoft Purview-account automatisch geïmplementeerd in het databeheerabonnement. Het doel is om de volledige gegevenstoewijzing te centraliseren in één Microsoft Purview-account voor alle datalandingszones. We raden u aan om één Microsoft Purview-account te overwegen binnen het abonnement voor de landingszone voor gegevensbeheer per omgevingstype.
Naast het Microsoft Purview-account wordt ook een beheerde resourcegroep geïmplementeerd. Een beheerd opslagaccount en een beheerde Event Hubs-naamruimte worden geïmplementeerd in deze resourcegroep en worden gebruikt voor het opnemen van metagegevens van gegevensassets via scans. Omdat deze resources worden gebruikt door de Microsoft Purview-catalogus, mogen ze niet worden verwijderd. Er wordt automatisch een RBAC-toewijzing voor op rollen gebaseerd toegangsbeheer van Azure toegevoegd voor alle principals op het niveau van de resourcegroep op het moment van implementatie.
Vereisten
Bekijk vóór de implementatie de volgende vereisten binnen uw abonnement voor de landingszone voor gegevensbeheer:
- Beleidsuitzonderingen maken: als u een bestaande Azure Policy-toewijzing hebt waarmee beheerders of toepassingen geen Azure Storage-accounts, Azure Event Hubs-naamruimte, Microsoft Purview-accounts, Azure Privé-DNS-zones of privé-eindpunten van Azure kunnen maken, moet u Azure Policy-uitzonderingen toepassen. De uitzonderingen zijn vereist, zodat de benodigde resources kunnen worden geïmplementeerd in de landingszone voor gegevensbeheer, samen met de Implementatie van Microsoft Purview.
- Resourceproviders registreren: zorg ervoor dat u de volgende Azure-resourceproviders registreert in het abonnement voor de landingszone voor gegevensbeheer:
Microsoft.EventHub
Microsoft.Purview
Microsoft.Storage
Belangrijk
Als u de landingszone voor gegevensbeheer met Microsoft Purview wilt implementeren, moet aan de vereisten worden voldaan. Zie Resourceproviders voor Azure-services voor meer informatie over het registreren van resourceproviders.
Netwerk- en naamomzetting
Analyse in de cloud maakt gebruik van een privé-eindpunt van Azure om beveiligde toegang tot de catalogus mogelijk te maken, mogelijk gemaakt door Azure Private Link. Het privé-eindpunt maakt gebruik van IP-adressen uit de VNet-adresruimte voor uw Microsoft Purview-account. Netwerkverkeer tussen de clients op het VNet en het Microsoft Purview-account gaat via het VNet en een Private Link in het Microsoft backbone-netwerk. Het VNet en Private Link elimineren blootstelling van het openbare internet. Als u netwerkisolatie wilt inschakelen voor end-to-end scanscenario's, worden er meer privé-eindpunten geïmplementeerd. Met de privé-eindpunten kunnen gegevensbronnen in Azure en on-premises bronnen worden verbonden via Azure Private Link.
Azure-privé-eindpuntimplementatie
Het Microsoft Purview-account wordt geïmplementeerd in het virtuele Azure-netwerk (VNet) binnen de landingszone voor gegevensbeheer met verschillende privé-eindpunten:
Account: Er wordt een privé-eindpunt gebruikt om alleen clientoproepen naar Microsoft Purview toe te staan die afkomstig zijn van het privénetwerk. Dit is vereist als een vereiste voor een privé-eindpunt van de portal .
Portal: Een privé-eindpunt is bedoeld om privéconnectiviteit te bieden met de Microsoft Purview-beheerportal. De Microsoft Purview-beheerportal is de gebruikersinterface voor beheer waarmee u Microsoft Purview vanuit een webbrowser kunt openen en beheren.
Opname van privé-eindpunten voor het scannen van Azure IaaS- en PaaS-gegevensbronnen in azure Virtual Network en on-premises gegevensbronnen via een privéverbinding. Dankzij deze methode wordt het netwerk geïsoleerd voor uw metagegevens die van de gegevensbronnen naar Microsoft Purview-gegevenstoewijzing stromen.
Belangrijk
Als u gegevensbronnen in Microsoft Purview wilt scannen, moet een zelf-hostende Integration Runtime worden geïmplementeerd in hetzelfde virtuele netwerk waarin privé-eindpunten van Microsoft Purview worden geïmplementeerd, die zich in de landingszone voor gegevensbeheer of in een datalandingszone kunnen bevinden.
Zie Het netwerk voor analyse op cloudschaal voor meer informatie over netwerken voor landingszones voor gegevensbeheer.
Zie Privé-eindpunten van Microsoft Purview gebruiken voor uw Microsoft Purview-account voor meer informatie over privé-eindpunten van Microsoft Purview.
Privé-eindpunt voor account en portal
Als u de gegevensinfrastructuur wilt beheren met Microsoft Purview en verbinding wilt maken met de Microsoft Purview-beheerportal, moet u privéconnectiviteit gebruiken. Openbare toegang is beperkt tot het Microsoft Purview-account dat is geïmplementeerd in de landingszone voor gegevensbeheer om meer beveiliging toe te voegen. Privé-eindpunten voor accounts en portals worden geïmplementeerd om privéconnectiviteit te bieden met uw Microsoft Purview-account en toegang tot de Microsoft Purview-beheerportal.
Toegang tot de Microsoft Purview-beheerportal
Als u het gebruik van de Microsoft Purview-portal wilt behouden via privéconnectiviteit, raden we u aan om openbare netwerktoegang in Microsoft Purview-instellingen te weigeren. Als u verbinding wilt maken met de Microsoft Purview-beheerportal, hebt u een jumpmachine of jumpbox nodig die in uw netwerk is geïmplementeerd. U kunt een machine uit het hybride netwerk of als een virtuele machine in de landingszone voor gegevensbeheer gebruiken. Een jumpmachine is een beveiligde RAS-server, die vaak gebruikmaakt van de SSH-software (Remote Desktop Services of Secure Shell) van Microsoft. Jumpcomputers fungeren als een stappunt voor beheerders die toegang hebben tot kritieke systemen met alle beheeracties die worden uitgevoerd vanaf de toegewezen host.
Gebruik een van deze opties om uw gegevens te beheren met Microsoft Purview via de Microsoft Purview-beheerportal:
Optie 1: Gebruik een jumpmachine die is verbonden met het bedrijfsnetwerk. Als u dit connectiviteitsmodel wilt gebruiken, moet u verbinding hebben tussen het VNet waar het privé-eindpunt van de Microsoft Purview-portal wordt gemaakt en uw bedrijfsnetwerk.
Bekijk Cloud Adoption Framework-netwerken voor meer informatie over netwerktopologie en connectiviteitsoverzicht.
Optie 2: Als hybride connectiviteit niet beschikbaar is in uw organisatie, implementeert u een virtuele machine in de landingszone voor gegevensbeheer. Implementeer Azure Bastion om verbinding te maken met Microsoft Purview met behulp van een beveiligde verbinding.
Privé-eindpunten voor opname
Microsoft Purview kan gegevensbronnen scannen in Azure of on-premises omgevingen met behulp van privé- of openbare eindpunten. Het netwerk van een gegevenslandingszone wordt automatisch gekoppeld aan het VNet van de landingszone voor gegevensbeheer en het VNet van het connectiviteitsabonnement. De gegevensbronnen in datalandingszones kunnen dus worden gescand met behulp van privéconnectiviteit.
U wordt aangeraden privé-eindpunten in te schakelen voor andere gegevensbronnen in uw landingszones en gegevensbronnen te scannen met behulp van privéconnectiviteit.
Naamomzetting
DNS-omzetting voor privé-eindpunten moet worden verwerkt via centrale Azure Privé-DNS-zones. De volgende privé-DNS-zones worden automatisch geïmplementeerd in de Microsoft Purview-implementatie in de landingszone voor gegevensbeheer:
privatelink.purview.azure.com
privatelink.purviewstudio.azure.com
privatelink.blob.core.windows.net
privatelink.queue.core.windows.net
privatelink.servicebus.windows.net
Als u een hybride cloud hebt en cross-premises naamomzetting is vereist, is het belangrijk dat u on-premises DNS-servers correct configureert om de juiste aanvragen door te sturen naar de aangepaste DNS-server in Azure.
Als u al aangepaste DNS in Azure hebt, moet u voorwaardelijke doorstuurservers instellen op uw on-premises DNS-server die ernaar verwijst.
Als u geen aangepaste DNS-VM in Azure hebt, kunt u de virtuele-machineschaalset van Azure implementeren die NGINX al heeft geconfigureerd voor het doorsturen van DNS-aanvragen naar door Azure verstrekte DNS-IP
168.63.129.16
. Zie Virtuele-machineschaalset van een NGINX DNS-proxy implementeren in een bestaand virtueel netwerk voor meer informatie.
Fooi
Als u naamomzetting wilt toestaan tussen de landingszone voor gegevensbeheer en de landingszones voor gegevens, gebruikt u dezelfde privé-DNS-zones binnen {prefix}-global-dns
de resourcegroep binnen de landingszone voor gegevensbeheer.
Zie Netwerken voor analyses op cloudschaal en naamomzetting voor meer informatie over cloudanalysenetwerken
Verificatie voor gegevensbronnen beheren in Microsoft Purview
Microsoft Purview vereist toegang tot het besturingsvlak en het gegevensvlak om gegevensbronnen te registreren en te scannen.
Gegevensbronnen registreren
Wanneer u het Microsoft Purview-account implementeert, wordt automatisch een door het systeem toegewezen beheerde identiteit gemaakt. Deze wordt gemaakt in de Microsoft Entra-tenant en toegewezen aan deze resource. Als u Azure-resources wilt lezen en weergeven onder een abonnement of resourcegroep bij het registreren van gegevensbronnen in Microsoft Purview, heeft de door Microsoft Purview beheerde identiteit de rol Azure RBAC Reader voor het bereik nodig.
Overweeg de rol Lezer toe te wijzen aan de door Microsoft Purview beheerde identiteit in elk abonnement op de gegevenslandingszone voordat u een van deze gegevensbronnen registreert bij Microsoft Purview:
- Azure Blob Storage
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Azure SQL Database
- Azure SQL Managed Instance
- Azure Synapse Analytics
Gegevensbronnen scannen
Voordat u nieuwe scans uitvoert, moet u ervoor zorgen dat u aan de volgende vereisten voldoet:
Zelf-hostende integratieruntimes implementeren en registreren
Implementeer en registreer zelf-hostende IR-VM's (Integration Runtime) voor elke gegevenslandingszone. Zelf-hostende IR's zijn vereist voor het scannen van gegevensbronnen, zoals Azure SQL Database of op VM's gebaseerde gegevensbronnen. Deze gegevensbronnen kunnen zich on-premises of in elk van de datalandingszones bevinden. Een zelf-hostende IR kan kopieeractiviteiten uitvoeren tussen een gegevensarchief in de cloud en een gegevensarchief in een particulier netwerk. De IR kan ook transformatieactiviteiten verzenden voor rekenbronnen in een on-premises netwerk of een virtueel Azure-netwerk. De installatie van een zelf-hostende IR heeft een on-premises machine of een virtuele machine in een particulier netwerk nodig.
Fooi
U wordt aangeraden een toegewezen computer te gebruiken om de IR te hosten. De computer moet gescheiden zijn van de server die als host fungeert voor het gegevensarchief. Het wordt ook ten zeerste aanbevolen om ten minste twee zelf-hostende IR-VM's te plannen in elke gegevenslandingszone of on-premises omgeving.
Als u on-premises gegevensbronnen wilt scannen, kunnen de zelf-hostende IRs worden geïmplementeerd in uw on-premises netwerk. Als u echter gegevensbronnen in Azure wilt scannen, moeten de zelf-hostende IRs worden geïmplementeerd in hetzelfde VNet als privé-eindpunten van Microsoft Purview. Het is raadzaam om nieuwe privé-eindpunten voor opname en nieuwe zelf-hostende IR's te implementeren per regio waar gegevensbronnen zich bevinden.
Mogelijk wilt u een toenemende gelijktijdige workload hosten. Of misschien wilt u betere prestaties bereiken op het niveau van uw huidige workload. U kunt de schaal van de verwerking verbeteren door een van de volgende methoden te gebruiken:
- Omhoog schalen wanneer de processor en het geheugen van het knooppunt te weinig worden gebruikt
- De zelf-hostende IR uitschalen door meer knooppunten of virtuele-machineschaalsets toe te voegen
Toegang tot het gegevensvlak toewijzen om gegevensbronnen te scannen
Als u toegang wilt bieden tot Microsoft Purview op het gegevensvlak en gegevensbronnen, zijn er meerdere opties om de verificatie in te stellen:
- Optie 1: Beheerde identiteit
- Optie 2: Accountsleutel of wachtwoorden die zijn opgeslagen in Azure Key Vault als geheim
- Optie 3: Service-principal die is opgeslagen in Azure Key Vault als geheim
Belangrijk
Als u gegevensbronnen wilt scannen via Azure Private Link in Microsoft Purview, moet u een zelf-hostende Integration Runtime implementeren en accountsleutel/SQL-verificatie of service-principal gebruiken vanuit de opties voor verificatie naar gegevensbronnen.
Fooi
Wanneer een gegevensbron geen gebruik kan maken van Azure Private Link, raden we u aan om beheerde Identiteit van Microsoft Purview te gebruiken om gegevensbronnen te scannen. In dit geval moet u openbare toegang toestaan voor de firewallinstellingen van uw Microsoft Purview-account.
Geheimen opslaan in Azure Key Vault
Meerdere Azure Key Vault-resources worden geïmplementeerd in de landingszone voor gegevensbeheer en de abonnementen voor de gegevenslandingszone. In de Azure Key Vault-resources worden geheimen opgeslagen die betrekking hebben op metagegevensgegevensbronnen in de landingszone en gegevensbronnen voor gegevensbeheer. Een voorbeeld van een gegevensbron is Azure SQL Database die wordt gebruikt door Azure Data Factory. Of Azure Database for MySQL die worden gebruikt door Databricks-werkruimten in de gegevenslandingszone.
Verbinding maken azure-sleutelkluizen voor gegevenslandingszones naar uw Microsoft Purview-account
Microsoft Purview kan de geheimen en referenties gebruiken die zijn opgeslagen in Azure-sleutelkluizen. Ze kunnen alleen worden gebruikt als u de Azure Key Vault-verbinding binnen het Microsoft Purview-account maakt en het geheim is geregistreerd. Nadat u een nieuwe landingszone voor gegevens hebt toegevoegd, moet u een nieuwe Azure Key Vault-verbinding maken in het Microsoft Purview-account. De verbinding is een een-op-een-koppeling van de Azure Key Vault-resource met het Microsoft Purview-account. Hiermee kunt u referenties maken in het Microsoft Purview-account op basis van de geheimen die zijn opgeslagen in Azure Key Vault.
Zie Azure Key Vault-verbindingen maken in uw Microsoft Purview-account voor meer informatie.
Fooi
Verwijder ongebruikte Azure-sleutelkluizen om Key Vault-verbindingen te minimaliseren.
Referenties maken in Microsoft Purview
Mogelijk moet u een referentie instellen met behulp van een sleutelkluisgeheimvoor specifieke scenario's:
- Als u gegevensbronnen wilt scannen waarbij door Microsoft Purview beheerde identiteit niet kan worden gebruikt als verificatiemethode.
- Als u gegevensbronnen wilt scannen met behulp van een zelf-hostende Integration Runtime, moeten de ondersteunde verificatietypen, zoals accountsleutels, SQL-verificatie (wachtwoord) of service-principal worden opgeslagen in een referentie.
- Gegevensbronnen scannen met behulp van een privé-eindpunt voor gegevensopname.
- Gegevensbronnen scannen die zich in een virtuele machine of in een on-premises omgeving bevinden.
Voordat u referenties in Microsoft Purview maakt, moet uw Microsoft Purview-account toegang hebben tot Azure Key Vault-geheimen. Gebruik azure Key Vault-toegangsbeleid of op rollen gebaseerd toegangsbeheer (RBAC) om Microsoft Purview Managed Service Identity (MSI) de vereiste toegang te verlenen. Zie Referenties voor bronverificatie in Microsoft Purview in Microsoft Purview voor meer informatie over het verlenen van MSI-toegang tot Azure Key Vault en het maken van referenties in Microsoft Purview.
Rollen en toegangsbeheer van Microsoft Purview
Microsoft Purview heeft verschillende ingebouwde rollen, zoals Gegevenslezer, Gegevenscurator, Verzamelingsbeheerder, Gegevensbronbeheerder en Beleidsauteur voor het beheren van het gegevensvlak, dat kan worden gecombineerd om meer bevoegdheden te bieden. De rol Gegevenslezer is bijvoorbeeld bedoeld voor rollen zoals gegevensfunctionarissen, gegevensstewards en hoofdbeveiligingsmedewerkers die alleen-lezentoegang tot het gegevensdomein vereisen. De gegevensomgeving kan classificaties, herkomst via zoekopties en rapporten bevatten die beschikbaar zijn in Microsoft Purview.
Zodra de implementatie van de landingszone voor gegevensbeheer is voltooid, gebruikt u het model met minimale bevoegdheden om toegang te bieden tot het weergeven of beheren van metagegevens in Microsoft Purview.
Belangrijk
Microsoft Purview-gegevensvlakrollen moeten worden beheerd in de Microsoft Purview-beheerportal of rechtstreeks met behulp van de API.
Zie Toegangsbeheer in het gegevensvlak van Microsoft Purview voor meer informatie over Microsoft Purview-rollen
Aanbevolen Microsoft Purview-rollen
Bekijk de volgende lijst met persona's die betrokken zijn bij een cloudanalyse-implementatie. Wijs ze de relevante Microsoft Purview-rollen toe, zodat ze kunnen bijdragen aan het succes van de implementatie:
Persona | - Rol | Aanbevolen Microsoft Purview-rol |
---|---|---|
Producteigenaren | Producteigenaren gebruiken Azure om uw oplossingen te transformeren, flexibiliteit te bieden voor het bedrijf en bedrijfsprocessen te optimaliseren. | Gegevenslezer |
Oplossingsarchitecten | Definieer oplossingen voor het bereiken van de grenzen van het bedrijfsnetwerk. Meer informatie over het oplossen van diagnose, analyse, ontwerp, implementatie en integratie van Azure-services. | |
Ontwikkelaars en DevOps-technici | Ontwerp, bouw, implementeer, test en onderhoud continue integratie- en leveringsproces met Azure DevOps of GitHub. | Niet van toepassing |
Beveiligingstechnici | Stel uw teams in staat om een beveiligde infrastructuur in Azure te ontwerpen en te implementeren met behulp van best practices. | |
Technische en bedrijfsmanagers | Bouw een algemeen begrip van Azure-services. Beheer uw cloudkosten en optimaliseer uw activiteiten en de flexibiliteit van uw team. | Niet van toepassing |
Besluitvormers en zakelijke gebruikers | Gebruik Azure voor toegang tot bruikbare inzichten. Verwacht dat deze in de meest relevante vorm wordt geleverd. Ai gebruiken die is ingesloten in bestaande oplossingen om bedrijfsprocessen te optimaliseren. | Gegevenslezer |
Gegevensbeheerders | Verantwoordelijk voor het inrichten en beheren van toegang tot gegevensassets. | Gegevenslezer of gegevenscurator |
Gegevensanalisten en prestatieanalisten | Gebruik Azure om nieuwe inzichten te ontdekken en te delen op basis van bestaande gegevensassets of ad-hocgegevens . Maak ai-transformaties met één klik, verbruik vooraf gemaakte modellen en genereer eenvoudig machine learning-modellen. | |
Gegevenstechnici | Gebruik Azure om gegevens- en analyseproducten te bouwen, integreren en beheren. Maak toepassingen en oplossingen waarvoor AI is ingeschakeld, indien van toepassing. | |
Gegevenswetenschappers van burgers | Machine learning-modellen maken via krachtige visuals, slepen en neerzetten, hulpprogramma's zonder code, waar geen codering nodig is | |
Gegevenswetenschappers | Gebruik uw favoriete hulpprogramma's en machine learning-frameworks om schaalbare data science-oplossingen te bouwen. Versnel de end-to-end levenscyclus van machine learning. | |
Machine learning-technici | Schakel juiste processen en infrastructuur in voor eenvoudige modelimplementatie en modelbeheer. |
Zie Rollen en teams voor meer informatie over gegevensrollen.
Volgende stappen
Azure Machine Learning als gegevensproduct voor analyses op cloudschaal