Azure Data Factory hanterat virtuellt nätverk
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Tips
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
Den här artikeln beskriver hanterade virtuella nätverk och hanterade privata slutpunkter i Azure Data Factory.
Hanterat virtuellt nätverk
När du skapar en Azure-integrationskörning i ett hanterat virtuellt Data Factory-nätverk etableras integrationskörningen med det hanterade virtuella nätverket. Den använder privata slutpunkter för att på ett säkert sätt ansluta till datalager som stöds.
Genom att skapa en integrationskörning i ett hanterat virtuellt nätverk ser du till att dataintegreringsprocessen är isolerad och säker.
Fördelar med att använda ett hanterat virtuellt nätverk:
- Med ett hanterat virtuellt nätverk kan du avlasta hanteringen av det virtuella nätverket till Data Factory. Du behöver inte skapa ett undernät för en integrationskörning som så småningom kan använda många privata IP-adresser från ditt virtuella nätverk och som kräver tidigare planering av nätverksinfrastrukturen.
- Djup kunskap om Azure-nätverk krävs inte för att göra dataintegreringar på ett säkert sätt. I stället är det mycket enklare för datatekniker att komma igång med säker ETL.
- Ett hanterat virtuellt nätverk tillsammans med hanterade privata slutpunkter skyddar mot dataexfiltrering.
För närvarande stöds det hanterade virtuella nätverket endast i samma region som Data Factory-regionen.
Anteckning
En befintlig global integrationskörning kan inte växla till en integrationskörning i ett hanterat virtuellt Data Factory-nätverk och vice versa.
Det finns två sätt att aktivera hanterat virtuellt nätverk i datafabriken:
- Aktivera hanterat virtuellt nätverk när datafabriken skapas.
- Aktivera hanterat virtuellt nätverk i Integration Runtime.
Hanterade privata slutpunkter
Hanterade privata slutpunkter är privata slutpunkter som skapats i det hanterade virtuella nätverket i Data Factory. Detta upprättar en privat länk till Azure-resurser. Data Factory hanterar de här privata slutpunkterna för din räkning.
Data Factory stöder privata länkar. Du kan använda privat Azure-länk för att få åtkomst till PaaS-tjänster (Plattform som en tjänst) som Azure Storage, Azure Cosmos DB och Azure Synapse Analytics.
När du använder en privat länk passerar trafiken mellan dina datalager och det hanterade virtuella nätverket helt över Microsofts stamnätverk. Privat länk skyddar mot dataexfiltreringsrisker. Du upprättar en privat länk till en resurs genom att skapa en privat slutpunkt.
En privat slutpunkt använder en privat IP-adress i det hanterade virtuella nätverket för att effektivt föra in tjänsten i den. Privata slutpunkter mappas till en specifik resurs i Azure och inte till hela tjänsten. Kunder kan begränsa anslutningen till en specifik resurs som godkänts av deras organisation. Mer information finns i Privata länkar och privata slutpunkter.
Anteckning
Resursprovidern Microsoft.Network måste vara registrerad i din prenumeration.
- Se till att du aktiverar hanterat virtuellt nätverk i datafabriken.
- Skapa en ny hanterad privat slutpunkt i Hantera hubb.
- En privat slutpunktsanslutning skapas i ett väntande tillstånd när du skapar en hanterad privat slutpunkt i Data Factory. Ett arbetsflöde för godkännande initieras. Resursägaren för den privata länken ansvarar för att godkänna eller avvisa anslutningen.
- Om ägaren godkänner anslutningen upprättas den privata länken. Annars upprättas inte den privata länken. I båda fallen uppdateras den hanterade privata slutpunkten med anslutningens status.
Endast en hanterad privat slutpunkt i ett godkänt tillstånd kan skicka trafik till en specifik privat länkresurs.
Anteckning
Anpassad DNS stöds inte i hanterat virtuellt nätverk.
Interaktiv redigering
Interaktiva redigeringsfunktioner används för funktioner som testanslutning, bläddra i mapplista och tabelllista, hämta schema och förhandsgranska data. Du kan aktivera interaktiv redigering när du skapar eller redigerar en Azure-integreringskörning, som finns i Azure Data Factory hanterade virtuella nätverket. Serverdelstjänsten allokerar beräkning i förväg för interaktiva redigeringsfunktioner. Annars allokeras beräkningen varje gång en interaktiv åtgärd utförs, vilket tar längre tid. Time to live (TTL) för interaktiv redigering är som standard 60 minuter, vilket innebär att det automatiskt inaktiveras efter 60 minuter av den senaste interaktiva redigeringsåtgärden. Du kan ändra TTL-värdet enligt dina faktiska behov.
Time to live
Kopieringsaktivitet
Som standard startar varje kopieringsaktivitet en ny beräkning baserat på konfigurationen i kopieringsaktiviteten. När det hanterade virtuella nätverket är aktiverat tar starttiden för kalla beräkningar några minuter och dataflytten kan inte starta förrän den är klar. Om dina pipelines innehåller flera sekventiella kopieringsaktiviteter eller om du har många kopieringsaktiviteter i foreach-loopen och inte kan köra dem alla parallellt, kan du aktivera ett TTL-värde (time to live) i Azure Integration Runtime-konfigurationen. Om du anger ett time to live-värde och DIU-nummer som krävs för kopieringsaktiviteten håller motsvarande beräkningar vid liv under en viss tid efter att körningen har slutförts. Om en ny kopieringsaktivitet startar under TTL-tiden återanvänds de befintliga beräkningen och starttiden minskar avsevärt. När den andra kopieringsaktiviteten har slutförts fortsätter beräkningen att vara aktiv under TTL-tiden. Du har flexibiliteten att välja bland de fördefinierade beräkningsstorlekarna, från små till medelstora till stora. Du kan också välja att anpassa beräkningsstorleken baserat på dina specifika krav och realtidsbehov.
Anteckning
Om du konfigurerar om DIU-numret påverkas inte den aktuella kopieringsaktivitetskörningen.
Anteckning
Måttet dataintegreringsenhet (DIU) på 2 DIU stöds inte för aktiviteten Kopiera i ett hanterat virtuellt nätverk.
Den DIU som du väljer i TTL används för att köra alla kopieringsaktiviteter. Storleken på DIU:en skalas inte automatiskt efter faktiska behov. Så du måste välja tillräckligt många DIU:er.
Varning
Om du väljer några DIU:er för att köra många aktiviteter blir många aktiviteter väntande i kön, vilket allvarligt påverkar den övergripande prestandan.
Pipeline och extern aktivitet
På samma sätt som med kopian kan du anpassa beräkningsstorleken och TTL-varaktigheten enligt dina specifika krav. Observera dock, till skillnad från kopian, att pipeline och extern TTL inte kan inaktiveras.
Anteckning
Time to live (TTL) gäller endast för hanterat virtuellt nätverk.
Du kan använda tabellen nedan som referens för att fastställa det optimala antalet noder för körning av både pipelines och externa aktiviteter.
Aktivitetstyp | Kapacitet |
---|---|
Pipelineaktivitet | Cirka 50 per nod Skriptaktivitet och uppslagsaktivitet med SQL alwaysEncrypted tenderar att förbruka fler resurser jämfört med andra pipelineaktiviteter, där det föreslagna antalet är cirka 10 per nod |
Extern aktivitet | Cirka 800 per nod |
Jämförelse av olika TTL
I följande tabell visas skillnaderna mellan olika typer av TTL:
Funktion | Interaktiv redigering | Kopiera beräkningsskala | Extern beräkningsskala för pipeline & |
---|---|---|---|
När börjar gälla | Omedelbart efter aktivering | Körning av första aktiviteten | Körning av första aktiviteten |
Kan inaktiveras | Y | Y | N |
Reserverad beräkning kan konfigureras | N | Y | Y |
Anteckning
Du kan inte aktivera TTL i standardinställningen för automatisk lösning av Azure Integration Runtime. Du kan skapa en ny Azure-integrationskörning för den.
Skapa ett hanterat virtuellt nätverk via Azure PowerShell
$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""
$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"
# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}
# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
privateLinkResourceId = "${privateLinkResourceId}"
groupId = "blob"
}
# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
type = "Managed"
typeProperties = @{
computeProperties = @{
location = "AutoResolve"
dataFlowProperties = @{
computeType = "General"
coreCount = 8
timeToLive = 0
}
}
}
managedVirtualNetwork = @{
type = "ManagedVirtualNetworkReference"
referenceName = "default"
}
}
Anteckning
Du kan hämta groupId för andra datakällor från en privat länkresurs.
Utgående anslutning
Datakällor och tjänster som stöds
Följande tjänster har inbyggt stöd för privata slutpunkter. De kan anslutas via en privat länk från ett hanterat virtuellt Data Factory-nätverk:
- Azure Databricks
- Azure Functions (Premium-abonnemang)
- Azure Key Vault
- Azure Machine Learning
- Azure Private Link
- Microsoft Purview
Om du vill ha stöd för datakällor kan du läsa översikten över anslutningsappen. Du kan komma åt alla datakällor som stöds av Data Factory via ett offentligt nätverk.
Lokala datakällor
Information om hur du får åtkomst till lokala datakällor från ett hanterat virtuellt nätverk med hjälp av en privat slutpunkt, finns i Få åtkomst till lokal SQL Server från ett virtuellt Data Factory-hanterat nätverk via en privat slutpunkt).
Utgående kommunikation via offentlig slutpunkt från ett hanterat virtuellt Data Factory-nätverk
Alla portar öppnas för utgående kommunikation.
Begränsningar och kända problem
Skapa länkad tjänst för Key Vault
När du skapar en länkad tjänst för Key Vault finns det ingen referens för integrationskörning. Därför kan du inte skapa privata slutpunkter när länkade tjänster skapas av Key Vault. Men när du skapar en länkad tjänst för datalager som refererar till Key Vault, och den här länkade tjänsten refererar till en integrationskörning med hanterat virtuellt nätverk aktiverat, kan du skapa en privat slutpunkt för Key Vault när du skapar.
- Testanslutning: Den här åtgärden för en länkad tjänst i Key Vault validerar bara URL-formatet men utför ingen nätverksåtgärd.
- Använda privat slutpunkt: Den här kolumnen visas alltid som tom även om du skapar en privat slutpunkt för Key Vault.
Skapa länkad tjänst i Azure HDInsight
Kolumnen Använda privat slutpunkt visas alltid som tom även om du skapar en privat slutpunkt för HDInsight med hjälp av en privat länktjänst och en lastbalanserare med portvidarebefordring.
Fullständigt kvalificerat domännamn (FQDN) för Azure HDInsight
Om du har skapat en anpassad privat länktjänst bör FQDN sluta med azurehdinsight.net utan att leda privatelink i domännamnet när du skapar en privat slutpunkt. Om du använder privatelink i domännamnet kontrollerar du att det är giltigt och att du kan lösa det.
Åtkomstbegränsningar i hanterat virtuellt nätverk med privata slutpunkter
Du kan inte komma åt varje PaaS-resurs när båda sidor exponeras för Private Link och en privat slutpunkt. Det här problemet är en känd begränsning för Private Link och privata slutpunkter.
Du har till exempel en hanterad privat slutpunkt för lagringskonto A. Du kan också komma åt lagringskontoT B via offentligt nätverk i samma hanterade virtuella nätverk. Men när lagringskonto B har en privat slutpunktsanslutning från ett annat hanterat virtuellt nätverk eller ett virtuellt kundnätverk kan du inte komma åt lagringskontoT B i ditt hanterade virtuella nätverk via det offentliga nätverket.
Nästa steg
Se följande självstudiekurser: