Bewerken

Delen via


Beveiligde onderzoeksomgeving voor gereglementeerde gegevens

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

Deze architectuur toont een veilige onderzoeksomgeving die is bedoeld om onderzoekers toegang te geven tot gevoelige gegevens onder een hoger niveau van controle en gegevensbescherming. Dit artikel is van toepassing voor organisaties die gebonden zijn aan naleving van regelgeving of andere strikte beveiligingsvereisten.

Architectuur

Diagram van een veilige onderzoeksomgeving.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Gegevenseigenaren uploaden gegevenssets naar een openbaar blobopslagaccount. De gegevens worden versleuteld met behulp van door Microsoft beheerde sleutels.

  2. Azure Data Factory maakt gebruik van een trigger die begint met het kopiëren van de geüploade gegevensset naar een specifieke locatie (importpad) in een ander opslagaccount met beveiligingsbesturingselementen. Het opslagaccount kan alleen worden bereikt via een privé-eindpunt. Het wordt ook geopend door een service-principal met beperkte machtigingen. Data Factory verwijdert de oorspronkelijke kopie, waardoor de gegevensset onveranderbaar is.

  3. Onderzoekers hebben toegang tot de beveiligde omgeving via een streamingtoepassing met behulp van Azure Virtual Desktop als een geprivilegieerde jumpbox.

  4. De gegevensset in het beveiligde opslagaccount wordt gepresenteerd aan de data science-VM's die zijn ingericht in een beveiligde netwerkomgeving voor onderzoek. Veel van de gegevensvoorbereiding wordt uitgevoerd op deze VM's.

  5. De beveiligde omgeving heeft Azure Machine Learning-rekenkracht die toegang heeft tot de gegevensset via een privé-eindpunt voor gebruikers voor Azure Machine Learning-mogelijkheden, zoals het trainen, implementeren, automatiseren en beheren van machine learning-modellen. Op dit moment worden modellen gemaakt die voldoen aan de richtlijnen voor regelgeving. Alle modelgegevens worden niet geïdentificeerd door persoonlijke gegevens te verwijderen.

  6. Modellen of niet-geïdentificeerde gegevens worden opgeslagen op een afzonderlijke locatie op de beveiligde opslag (exportpad). Wanneer er nieuwe gegevens worden toegevoegd aan het exportpad, wordt een logische app geactiveerd. In deze architectuur bevindt de logische app zich buiten de beveiligde omgeving, omdat er geen gegevens naar de logische app worden verzonden. De enige functie is het verzenden van meldingen en het handmatige goedkeuringsproces starten.

    De app start een goedkeuringsproces voor het aanvragen van een beoordeling van de gegevens die in de wachtrij worden geplaatst om te worden geëxporteerd. De handmatige revisoren zorgen ervoor dat gevoelige gegevens niet worden geëxporteerd. Na het beoordelingsproces worden de gegevens goedgekeurd of geweigerd.

    Notitie

    Als een goedkeuringsstap niet vereist is voor exfiltratie, kan de stap van de logische app worden weggelaten.

  7. Als de niet-geïdentificeerde gegevens zijn goedgekeurd, worden deze verzonden naar het Data Factory-exemplaar.

  8. Data Factory verplaatst de gegevens naar het openbare opslagaccount in een afzonderlijke container, zodat externe onderzoekers toegang hebben tot hun geëxporteerde gegevens en modellen. U kunt ook een ander opslagaccount inrichten in een lagere beveiligingsomgeving.

Onderdelen

Deze architectuur bestaat uit verschillende Azure-services waarmee resources naar behoefte worden geschaald. De services en hun rollen worden hieronder beschreven. Zie Volgende stappen voor koppelingen naar productdocumentatie om aan de slag te gaan met deze services.

Kernworkloadonderdelen

Hier volgen de belangrijkste onderdelen die onderzoeksgegevens verplaatsen en verwerken.

  • Azure Datawetenschap Virtual Machine (DSVM): VM's die zijn geconfigureerd met hulpprogramma's die worden gebruikt voor gegevensanalyse en machine learning.

  • Azure Machine Learning: wordt gebruikt voor het trainen, implementeren, automatiseren en beheren van machine learning-modellen en voor het beheren van de toewijzing en het gebruik van machine learning-rekenresources.

  • Azure Machine Learning Compute: een cluster met knooppunten die worden gebruikt voor het trainen en testen van machine learning- en AI-modellen. De berekening wordt op aanvraag toegewezen op basis van een optie voor automatisch schalen.

  • Azure Blob Storage: er zijn twee exemplaren. Het openbare exemplaar wordt gebruikt om de gegevens die zijn geüpload door gegevenseigenaars tijdelijk op te slaan. Ook worden gedeidentificeerde gegevens opgeslagen na modellering in een afzonderlijke container. Het tweede exemplaar is privé. Het ontvangt de trainings- en testgegevenssets van Machine Learning die worden gebruikt door de trainingsscripts. Opslag wordt als een virtueel station gekoppeld aan elk knooppunt van een Machine Learning Compute-cluster.

  • Azure Data Factory: verplaatst gegevens automatisch tussen opslagaccounts van verschillende beveiligingsniveaus om scheiding van taken te garanderen.

  • Azure Virtual Desktop wordt gebruikt als een jumpbox om zo nodig toegang te krijgen tot de resources in de beveiligde omgeving met streamingtoepassingen en een volledig bureaublad. U kunt ook Azure Bastion gebruiken. Maar heb een duidelijk inzicht in de verschillen tussen de beveiligingscontrole tussen de twee opties. Virtual Desktop heeft enkele voordelen:

    • De mogelijkheid om een app, zoals Microsoft Visual Studio Code, te streamen om notebooks uit te voeren op de machine learning-rekenresources.
    • Mogelijkheid om kopiëren, plakken en schermopnamen te beperken.
    • Ondersteuning voor Microsoft Entra-verificatie voor DSVM.
  • Azure Logic Apps biedt geautomatiseerde werkstroom met weinig code voor het ontwikkelen van zowel de trigger- als releasegedeelten van het handmatige goedkeuringsproces.

Onderdelen voor postuurbeheer

Deze onderdelen bewaken continu de houding van de workload en de bijbehorende omgeving. Het doel is om risico's te detecteren en te beperken zodra ze worden ontdekt.

  • Microsoft Defender voor Cloud wordt gebruikt om de algehele beveiligingspostuur van de implementatie te evalueren en een attestation-mechanisme te bieden voor naleving van regelgeving. Problemen die eerder zijn gevonden tijdens audits of evaluaties, kunnen vroeg worden ontdekt. Gebruik functies om de voortgang bij te houden, zoals een beveiligingsscore en nalevingsscore.

  • Microsoft Sentinel is DE SOAR-oplossing (Security Information and Event Management) en security orchestration, automation and response ( SOAR). U kunt logboeken en waarschuwingen van verschillende bronnen centraal bekijken en profiteren van geavanceerde AI- en beveiligingsanalyses om bedreigingen te detecteren, opsporen, voorkomen en erop reageren.

  • Azure Monitor biedt waarneembaarheid in uw hele omgeving. Bekijk metrische gegevens, activiteitenlogboeken en diagnostische logboeken van de meeste Azure-resources zonder dat er configuratie is toegevoegd. Beheerhulpprogramma's, zoals die in Microsoft Defender voor Cloud, pushen ook logboekgegevens naar Azure Monitor.

Governanceonderdelen

  • Azure Policy helpt bij het afdwingen van organisatiestandaarden en het beoordelen van naleving op schaal.

Alternatieven

  • Deze oplossing maakt gebruik van Data Factory om de gegevens naar het openbare opslagaccount in een afzonderlijke container te verplaatsen, zodat externe onderzoekers toegang hebben tot hun geëxporteerde gegevens en modellen. U kunt ook een ander opslagaccount inrichten in een lagere beveiligingsomgeving.
  • Deze oplossing maakt gebruik van Azure Virtual Desktop als jumpbox om toegang te krijgen tot de resources in de beveiligde omgeving, met streamingtoepassingen en een volledig bureaublad. U kunt ook Azure Bastion gebruiken. Virtual Desktop heeft echter enkele voordelen, waaronder de mogelijkheid om een app te streamen, om kopiëren/plakken en schermopnamen te beperken en AAC-verificatie te ondersteunen. U kunt ook punt-naar-site-VPN configureren voor offlinetraining lokaal. Dit helpt ook kosten te besparen voor het gebruik van meerdere VM's voor werkstations.
  • Om data-at-rest te beveiligen, versleutelt deze oplossing alle Azure Storage met door Microsoft beheerde sleutels met behulp van sterke cryptografie. U kunt ook door de klant beheerde sleutels gebruiken. De sleutels moeten worden opgeslagen in een beheerd sleutelarchief.

Scenariodetails

Potentiële gebruikscases

Deze architectuur is oorspronkelijk gemaakt voor onderzoeksinstellingen voor hoger onderwijs met HIPAA-vereisten (Health Insurance Portability and Accountability Act). Dit ontwerp kan echter worden gebruikt in elke branche die isolatie van gegevens vereist voor onderzoeksperspectief. Enkele voorbeelden:

  • Branches die gereguleerde gegevens verwerken volgens NIST-vereisten (National Institute of Standards and Technology)
  • Medische centra die samenwerken met interne of externe onderzoekers
  • Bankwezen en financiën

Door de richtlijnen te volgen kunt u volledige controle houden over uw onderzoeksgegevens, scheiding van taken hebben en voldoen aan strikte nalevingsstandaarden voor regelgeving en tegelijkertijd samenwerking bieden tussen de typische rollen die betrokken zijn bij een onderzoeksgerichte workload; gegevenseigenaren, onderzoekers en goedkeurders.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

Het belangrijkste doel van deze architectuur is om een veilige en vertrouwde onderzoeksomgeving te bieden die strikt de exfiltratie van gegevens uit het beveiligde gebied beperkt.

Netwerkbeveiliging

Azure-resources die worden gebruikt voor het opslaan, testen en trainen van onderzoeksgegevenssets, worden ingericht in een beveiligde omgeving. Deze omgeving is een virtueel Azure-netwerk met netwerkbeveiligingsgroepen (NSG's) regels om de toegang te beperken, voornamelijk:

  • Binnenkomende en uitgaande toegang tot het openbare internet en binnen het virtuele netwerk.

  • Toegang tot en van specifieke services en poorten. Deze architectuur blokkeert bijvoorbeeld alle poortenbereiken, behalve de poorten die vereist zijn voor Azure Services (zoals Azure Monitor). Een volledige lijst met servicetags en de bijbehorende services vindt u in servicetags voor virtueel netwerk.

    Ook wordt de toegang vanaf het virtuele netwerk met AVD (Azure Virtual Desktop) op poorten die zijn beperkt tot goedgekeurde toegangsmethoden geaccepteerd. Al het andere verkeer wordt geweigerd. In vergelijking met deze omgeving is het andere virtuele netwerk (met AVD) relatief open.

De belangrijkste blobopslag in de beveiligde omgeving is van het openbare internet. Het is alleen toegankelijk binnen het virtuele netwerk via privé-eindpuntverbindingen en Azure Storage Firewalls. Het wordt gebruikt om de netwerken te beperken van waaruit clients verbinding kunnen maken met Azure-bestandsshares.

Deze architectuur maakt gebruik van verificatie op basis van referenties voor het belangrijkste gegevensarchief dat zich in de beveiligde omgeving bevindt. In dit geval worden de verbindingsgegevens, zoals de abonnements-id en tokenautorisatie, opgeslagen in een sleutelkluis. Een andere optie is om op identiteit gebaseerde gegevenstoegang te maken, waarbij uw Azure-account wordt gebruikt om te bevestigen of u toegang hebt tot de Storage-service. In een scenario voor gegevenstoegang op basis van identiteit worden er geen verificatiereferenties opgeslagen. Zie Verbinding maken voor opslag met behulp van gegevenstoegang op basis van identiteiten voor meer informatie over het gebruik van gegevenstoegang op basis van identiteiten.

Het rekencluster kan alleen communiceren binnen het virtuele netwerk door gebruik te maken van het Azure Private Link-ecosysteem en service-/privé-eindpunten in plaats van openbaar IP-adres te gebruiken voor communicatie. Zorg ervoor dat u geen openbaar IP-adres inschakelt. Zie Geen openbaar IP-adres voor rekeninstanties voor meer informatie over deze functie, die momenteel in preview is (vanaf 3-7-2022).

De beveiligde omgeving maakt gebruik van Azure Machine Learning Compute voor toegang tot de gegevensset via een privé-eindpunt. Daarnaast kan Azure Firewall worden gebruikt voor het beheren van uitgaande toegang vanuit Azure Machine Learning Compute. Zie Inkomend en uitgaand netwerkverkeer configureren voor meer informatie over het configureren van Azure Firewall voor het beheren van de toegang tot Azure Machine Learning-rekenkracht, die zich in een machine learning-werkruimte bevindt.

Zie het blogbericht Secure Azure Machine Learning Service (AMLS) Environment voor informatie over een van de manieren om een Azure Machine Learning-omgeving te beveiligen.

Voor Azure-services die niet effectief kunnen worden geconfigureerd met privé-eindpunten of om stateful pakketinspectie te bieden, kunt u overwegen Om Azure Firewall of een virtueel netwerkapparaat van derden (NVA) te gebruiken.

Identiteitsbeheer

De toegang tot Blob Storage vindt plaats via op rollen gebaseerd toegangsbeheer van Azure (RBAC).

Azure Virtual Desktop biedt ondersteuning voor Microsoft Entra-verificatie bij DSVM.

Data Factory gebruikt beheerde identiteit voor toegang tot gegevens uit de blobopslag. DSVM's maken ook gebruik van een beheerde identiteit voor hersteltaken.

Gegevensbeveiliging

Om data-at-rest te beveiligen, wordt alle Azure Storage versleuteld met door Microsoft beheerde sleutels met behulp van sterke cryptografie.

U kunt ook door de klant beheerde sleutels gebruiken. De sleutels moeten worden opgeslagen in een beheerd sleutelarchief. In deze architectuur wordt Azure Key Vault geïmplementeerd in de beveiligde omgeving voor het opslaan van geheimen, zoals versleutelingssleutels en certificaten. Key Vault wordt geopend via een privé-eindpunt door de resources in het beveiligde virtuele netwerk.

Overwegingen voor governance

Schakel Azure Policy in om standaarden af te dwingen en geautomatiseerd herstel te bieden om resources in overeenstemming te brengen met specifieke beleidsregels. Het beleid kan worden toegepast op een projectabonnement of op beheergroepsniveau als één beleid of als onderdeel van een regelgevingsinitiatief.

In deze architectuur is azure Policy-gastconfiguratie bijvoorbeeld toegepast op alle VM's binnen het bereik. Het beleid kan besturingssystemen en machineconfiguratie voor de Datawetenschap VM's controleren.

VM-installatiekopieën

Op de Datawetenschap VM's worden aangepaste basisinstallatiekopieën uitgevoerd. Als u de basisinstallatiekopieën wilt bouwen, raden we u ten zeerste aan technologieën zoals Azure Image Builder te gebruiken. Op deze manier kunt u een herhaalbare installatiekopie maken die indien nodig kan worden geïmplementeerd.

De basisinstallatiekopieën hebben mogelijk updates nodig, zoals extra binaire bestanden. Deze binaire bestanden moeten worden geüpload naar de openbare blobopslag en door de beveiligde omgeving stromen, net zoals de gegevenssets worden geüpload door gegevenseigenaren.

Andere overwegingen

De meeste onderzoeksoplossingen zijn tijdelijke workloads en hoeven gedurende langere perioden niet beschikbaar te zijn. Deze architectuur is ontworpen als een implementatie met één regio met beschikbaarheidszones. Als de bedrijfsvereisten hogere beschikbaarheid eisen, repliceert u deze architectuur in meerdere regio's. U hebt andere onderdelen nodig, zoals een globale load balancer en distributeur om verkeer naar al deze regio's te routeren. Als onderdeel van uw herstelstrategie wordt het vastleggen en maken van een kopie van de aangepaste basisinstallatiekopie met Azure Image Builder ten zeerste aanbevolen.

De grootte en het type van de Datawetenschap-VM's moeten geschikt zijn voor de stijl van het uitgevoerde werk. Deze architectuur is bedoeld ter ondersteuning van één onderzoeksproject en de schaalbaarheid wordt bereikt door de grootte en het type van de VM's en de keuzes die zijn gemaakt voor rekenresources die beschikbaar zijn voor Azure Machine Learning aan te passen.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

De kosten van DSVM's zijn afhankelijk van de keuze van de onderliggende VM-serie. Omdat de workload tijdelijk is, wordt het verbruiksplan aanbevolen voor de resource van de logische app. Gebruik de Azure-prijscalculator om de kosten te schatten op basis van de geschatte grootte van resources die nodig zijn.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen