Hanterat virtuellt nätverk för Azure Data Factory
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
Den här artikeln beskriver hanterade virtuella nätverk och hanterade privata slutpunkter i Azure Data Factory.
Hanterat virtuellt nätverk
När du skapar en Azure-integreringskörning i ett hanterat virtuellt Data Factory-nätverk etableras integreringskörningen med det hanterade virtuella nätverket. Den använder privata slutpunkter för att på ett säkert sätt ansluta till datalager som stöds.
Genom att skapa en integreringskörning i ett hanterat virtuellt nätverk är dataintegreringsprocessen isolerad och säker.
Fördelar med att använda ett hanterat virtuellt nätverk:
- Med ett hanterat virtuellt nätverk kan du avlasta bördan med att hantera det virtuella nätverket till Data Factory. Du behöver inte skapa ett undernät för en integrationskörning som så småningom kan använda många privata IP-adresser från ditt virtuella nätverk och som kräver tidigare planering av nätverksinfrastrukturen.
- Djup kunskap om Azure-nätverk krävs inte för att göra dataintegreringar på ett säkert sätt. I stället är det mycket enklare för datatekniker att komma igång med säker ETL.
- Ett hanterat virtuellt nätverk tillsammans med hanterade privata slutpunkter skyddar mot dataexfiltrering.
För närvarande stöds det hanterade virtuella nätverket endast i samma region som Data Factory-regionen.
Kommentar
En befintlig global integrationskörning kan inte växla till en integrationskörning i ett hanterat virtuellt Data Factory-nätverk och vice versa.
Det finns två sätt att aktivera hanterade virtuella nätverk i datafabriken:
- Aktivera hanterat virtuellt nätverk när datafabriken skapas.
- Aktivera hanterat virtuellt nätverk i integrationskörning.
Hanterade privata slutpunkter
Hanterade privata slutpunkter är privata slutpunkter som skapats i det hanterade virtuella nätverket i Data Factory. Detta upprättar en privat länk till Azure-resurser. Data Factory hanterar de här privata slutpunkterna för din räkning.
Data Factory stöder privata länkar. Du kan använda en privat Azure-länk för att få åtkomst till PaaS-tjänster (Plattform som en tjänst) som Azure Storage, Azure Cosmos DB och Azure Synapse Analytics.
När du använder en privat länk passerar trafiken mellan dina datalager och det hanterade virtuella nätverket helt över Microsofts stamnätverk. Privat länk skyddar mot dataexfiltreringsrisker. Du upprättar en privat länk till en resurs genom att skapa en privat slutpunkt.
En privat slutpunkt använder en privat IP-adress i det hanterade virtuella nätverket för att effektivt föra in tjänsten i den. Privata slutpunkter mappas till en specifik resurs i Azure och inte till hela tjänsten. Kunder kan begränsa anslutningen till en specifik resurs som godkänts av deras organisation. Mer information finns i Privata länkar och privata slutpunkter.
Kommentar
Resursprovidern Microsoft.Network måste vara registrerad i din prenumeration.
- Se till att du aktiverar ett hanterat virtuellt nätverk i datafabriken.
- Skapa en ny hanterad privat slutpunkt i Hantera hubb.
- En privat slutpunktsanslutning skapas i ett väntande tillstånd när du skapar en hanterad privat slutpunkt i Data Factory. Ett arbetsflöde för godkännande initieras. Resursägaren för den privata länken ansvarar för att godkänna eller avvisa anslutningen.
- Om ägaren godkänner anslutningen upprättas den privata länken. Annars upprättas inte den privata länken. I båda fallen uppdateras den hanterade privata slutpunkten med anslutningens status.
Endast en hanterad privat slutpunkt i ett godkänt tillstånd kan skicka trafik till en specifik privat länkresurs.
Kommentar
Anpassad DNS stöds inte i det hanterade virtuella nätverket.
Interaktiv redigering
Interaktiva redigeringsfunktioner används för funktioner som testanslutning, bläddra i mapplista och tabelllista, hämta schema och förhandsgranskningsdata. Du kan aktivera interaktiv redigering när du skapar eller redigerar en Azure-integrationskörning, som finns i ett hanterat virtuellt Azure Data Factory-nätverk. Serverdelstjänsten förallokerar beräkning för interaktiva redigeringsfunktioner. Annars allokeras beräkningen varje gång en interaktiv åtgärd utförs, vilket tar längre tid. Time to live (TTL) för interaktiv redigering är som standard 60 minuter, vilket innebär att det automatiskt inaktiveras efter 60 minuter av den senaste interaktiva redigeringsåtgärden. Du kan ändra TTL-värdet enligt dina faktiska behov.
Time to live
Kopieringsaktivitet
Som standard startar varje kopieringsaktivitet en ny beräkning baserat på konfigurationen i kopieringsaktiviteten. När det hanterade virtuella nätverket är aktiverat tar starttiden för kallberäkning några minuter och dataflytten kan inte starta förrän den är klar. Om dina pipelines innehåller flera sekventiella kopieringsaktiviteter eller om du har många kopieringsaktiviteter i foreach-loopen och inte kan köra alla parallellt, kan du aktivera ett TTL-värde (time to live) i Azure Integration Runtime-konfigurationen. Om du anger ett time to live-värde och DIU-nummer som krävs för kopieringsaktiviteten håller motsvarande beräkningar vid liv under en viss tid efter att körningen har slutförts. Om en ny kopieringsaktivitet startar under TTL-tiden återanvänds de befintliga beräkningen och starttiden minskar avsevärt. När den andra kopieringsaktiviteten har slutförts fortsätter beräkningen att hålla sig vid liv under TTL-tiden. Du har flexibiliteten att välja bland de fördefinierade beräkningsstorlekarna, allt från små till medelstora till stora. Du kan också välja att anpassa beräkningsstorleken baserat på dina specifika krav och realtidsbehov.
Kommentar
Om du konfigurerar om DIU-numret påverkas inte den aktuella kopieringsaktiviteten.
Kommentar
Måttet dataintegreringsenhet (DIU) på 2 DIU stöds inte för kopieringsaktiviteten i ett hanterat virtuellt nätverk.
Den DIU som du väljer i TTL används för att köra alla kopieringsaktiviteter, storleken på DIU:en skalas inte automatiskt enligt de faktiska behoven. Så du måste välja tillräckligt många DIU:er.
Varning
Om du väljer några DIU:er för att köra många aktiviteter blir många aktiviteter väntande i kön, vilket allvarligt påverkar den övergripande prestandan.
Pipeline och extern aktivitet
På samma sätt som kopian har du möjlighet att skräddarsy beräkningsstorleken och TTL-varaktigheten enligt dina specifika krav. Observera dock, till skillnad från kopian, att pipeline och extern TTL inte kan inaktiveras.
Kommentar
Time to live (TTL) gäller endast för hanterade virtuella nätverk.
Du kan använda tabellen nedan som referens för att fastställa det optimala antalet noder för körning av både pipelines och externa aktiviteter.
Aktivitetstyp | Kapacitet |
---|---|
Pipelineaktivitet | Cirka 50 per nod Skriptaktivitet och uppslagsaktivitet med SQL alwaysEncrypted tenderar att förbruka fler resurser jämfört med andra pipelineaktiviteter, där det föreslagna antalet är cirka 10 per nod |
Extern aktivitet | Cirka 800 per nod |
Jämförelse av olika TTL
I följande tabell visas skillnaderna mellan olika typer av TTL:
Funktion | Interaktiv redigering | Kopiera beräkningsskala | Pipeline- och extern beräkningsskala |
---|---|---|---|
När börjar gälla | Omedelbart efter aktiveringen | Första aktivitetskörningen | Första aktivitetskörningen |
Kan inaktiveras | Y | Y | N |
Reserverad beräkning kan konfigureras | N | Y | Y |
Kommentar
Du kan inte aktivera TTL i standardkörningen för automatisk lösning av Azure-integrering. Du kan skapa en ny Azure-integreringskörning för den.
Kommentar
När TTL för kopiering/pipeline/extern beräkningsskala aktiveras bestäms faktureringen av de reserverade beräkningsresurserna. Därför inkluderar inte aktivitetens utdata billingReference, eftersom detta är exklusivt relevant i icke-TTL-scenarier.
Skapa ett hanterat virtuellt nätverk via Azure PowerShell
$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""
$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"
# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}
# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
privateLinkResourceId = "${privateLinkResourceId}"
groupId = "blob"
}
# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
type = "Managed"
typeProperties = @{
computeProperties = @{
location = "AutoResolve"
dataFlowProperties = @{
computeType = "General"
coreCount = 8
timeToLive = 0
}
}
}
managedVirtualNetwork = @{
type = "ManagedVirtualNetworkReference"
referenceName = "default"
}
}
Kommentar
Du kan hämta groupId för andra datakällor från en privat länkresurs.
Kommentar
ReferenceName ska bara anges som "standard" om du skapar via PowerShell-kommandot.
Utgående anslutning
Datakällor och tjänster som stöds
Följande tjänster har inbyggt stöd för privata slutpunkter. De kan anslutas via en privat länk från ett hanterat virtuellt Data Factory-nätverk:
- Azure Databricks
- Azure Functions (Premium-abonnemang)
- Azure Key Vault
- Azure Machine Learning
- Azure Private Link
- Microsoft Purview
Om du vill ha stöd för datakällor kan du läsa översikten över anslutningsappen. Du kan komma åt alla datakällor som stöds av Data Factory via ett offentligt nätverk.
Lokala datakällor
Information om hur du får åtkomst till lokala datakällor från ett hanterat virtuellt nätverk med hjälp av en privat slutpunkt, finns i Få åtkomst till lokal SQL Server från ett virtuellt Data Factory-hanterat nätverk via en privat slutpunkt).
Utgående kommunikation via offentlig slutpunkt från ett hanterat virtuellt Data Factory-nätverk
Alla portar öppnas för utgående kommunikation.
Begränsningar och kända problem
Skapa länkad tjänst för Key Vault
När du skapar en länkad tjänst för Key Vault finns det ingen referens för integreringskörning. Därför kan du inte skapa privata slutpunkter när du skapar en länkad tjänst för Key Vault. Men när du skapar en länkad tjänst för datalager som refererar till Key Vault, och den här länkade tjänsten refererar till en integreringskörning med hanterat virtuellt nätverk aktiverat, kan du skapa en privat slutpunkt för Key Vault när du skapar den.
- Testanslutning: Den här åtgärden för en länkad tjänst i Key Vault verifierar bara URL-formatet men utför ingen nätverksåtgärd.
- Använd privat slutpunkt: Den här kolumnen visas alltid som tom även om du skapar en privat slutpunkt för Key Vault.
Skapa länkad tjänst i Azure HDInsight
Kolumnen Använda privat slutpunkt visas alltid som tom även om du skapar en privat slutpunkt för HDInsight med hjälp av en privat länktjänst och en lastbalanserare med portvidarebefordring.
Fullständigt domännamn (FQDN) för Azure HDInsight
Om du har skapat en anpassad privat länktjänst bör FQDN sluta med azurehdinsight.net utan att leda privatelink i domännamnet när du skapar en privat slutpunkt. Om du använder privatelink i domännamnet kontrollerar du att det är giltigt och att du kan lösa det.
Åtkomstbegränsningar i hanterat virtuellt nätverk med privata slutpunkter
Du kan inte komma åt varje PaaS-resurs när båda sidor exponeras för Private Link och en privat slutpunkt. Det här problemet är en känd begränsning för Private Link och privata slutpunkter.
Du har till exempel en hanterad privat slutpunkt för lagringskonto A. Du kan också komma åt lagringskontoT B via det offentliga nätverket i samma hanterade virtuella nätverk. Men när lagringskonto B har en privat slutpunktsanslutning från ett annat hanterat virtuellt nätverk eller ett virtuellt kundnätverk kan du inte komma åt lagringskontoT B i ditt hanterade virtuella nätverk via det offentliga nätverket.
Relaterat innehåll
Se följande självstudiekurser: