Hanterat virtuellt nätverk för Azure Data Factory

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver hanterade virtuella nätverk och hanterade privata slutpunkter i Azure Data Factory.

Hanterat virtuellt nätverk

När du skapar en Azure-integreringskörning i ett hanterat virtuellt Data Factory-nätverk etableras integreringskörningen med det hanterade virtuella nätverket. Den använder privata slutpunkter för att på ett säkert sätt ansluta till datalager som stöds.

Genom att skapa en integreringskörning i ett hanterat virtuellt nätverk är dataintegreringsprocessen isolerad och säker.

Fördelar med att använda ett hanterat virtuellt nätverk:

  • Med ett hanterat virtuellt nätverk kan du avlasta bördan med att hantera det virtuella nätverket till Data Factory. Du behöver inte skapa ett undernät för en integrationskörning som så småningom kan använda många privata IP-adresser från ditt virtuella nätverk och som kräver tidigare planering av nätverksinfrastrukturen.
  • Djup kunskap om Azure-nätverk krävs inte för att göra dataintegreringar på ett säkert sätt. I stället är det mycket enklare för datatekniker att komma igång med säker ETL.
  • Ett hanterat virtuellt nätverk tillsammans med hanterade privata slutpunkter skyddar mot dataexfiltrering.

För närvarande stöds det hanterade virtuella nätverket endast i samma region som Data Factory-regionen.

Kommentar

En befintlig global integrationskörning kan inte växla till en integrationskörning i ett hanterat virtuellt Data Factory-nätverk och vice versa.

Diagram that shows Data Factory managed virtual network architecture.

Det finns två sätt att aktivera hanterade virtuella nätverk i datafabriken:

  1. Aktivera hanterat virtuellt nätverk när datafabriken skapas.

Screenshot of enabling managed virtual network during the creation of data factory.

  1. Aktivera hanterat virtuellt nätverk i integrationskörning.

Screenshot of enabling managed virtual network in integration runtime

Hanterade privata slutpunkter

Hanterade privata slutpunkter är privata slutpunkter som skapats i det hanterade virtuella nätverket i Data Factory. Detta upprättar en privat länk till Azure-resurser. Data Factory hanterar de här privata slutpunkterna för din räkning.

Data Factory stöder privata länkar. Du kan använda en privat Azure-länk för att få åtkomst till PaaS-tjänster (Plattform som en tjänst) som Azure Storage, Azure Cosmos DB och Azure Synapse Analytics.

När du använder en privat länk passerar trafiken mellan dina datalager och det hanterade virtuella nätverket helt över Microsofts stamnätverk. Privat länk skyddar mot dataexfiltreringsrisker. Du upprättar en privat länk till en resurs genom att skapa en privat slutpunkt.

En privat slutpunkt använder en privat IP-adress i det hanterade virtuella nätverket för att effektivt föra in tjänsten i den. Privata slutpunkter mappas till en specifik resurs i Azure och inte till hela tjänsten. Kunder kan begränsa anslutningen till en specifik resurs som godkänts av deras organisation. Mer information finns i Privata länkar och privata slutpunkter.

Kommentar

Resursprovidern Microsoft.Network måste vara registrerad i din prenumeration.

  1. Se till att du aktiverar ett hanterat virtuellt nätverk i datafabriken.
  2. Skapa en ny hanterad privat slutpunkt i Hantera hubb.

Screenshot that shows new managed private endpoints.

  1. En privat slutpunktsanslutning skapas i ett väntande tillstånd när du skapar en hanterad privat slutpunkt i Data Factory. Ett arbetsflöde för godkännande initieras. Resursägaren för den privata länken ansvarar för att godkänna eller avvisa anslutningen.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Om ägaren godkänner anslutningen upprättas den privata länken. Annars upprättas inte den privata länken. I båda fallen uppdateras den hanterade privata slutpunkten med anslutningens status.

Screenshot that shows approving a managed private endpoint.

Endast en hanterad privat slutpunkt i ett godkänt tillstånd kan skicka trafik till en specifik privat länkresurs.

Kommentar

Anpassad DNS stöds inte i det hanterade virtuella nätverket.

Interaktiv redigering

Interaktiva redigeringsfunktioner används för funktioner som testanslutning, bläddra i mapplista och tabelllista, hämta schema och förhandsgranskningsdata. Du kan aktivera interaktiv redigering när du skapar eller redigerar en Azure-integrationskörning, som finns i ett hanterat virtuellt Azure Data Factory-nätverk. Serverdelstjänsten förallokerar beräkning för interaktiva redigeringsfunktioner. Annars allokeras beräkningen varje gång en interaktiv åtgärd utförs, vilket tar längre tid. Time to live (TTL) för interaktiv redigering är som standard 60 minuter, vilket innebär att det automatiskt inaktiveras efter 60 minuter av den senaste interaktiva redigeringsåtgärden. Du kan ändra TTL-värdet enligt dina faktiska behov.

Screenshot that shows interactive authoring.

Time to live

Kopieringsaktivitet

Som standard startar varje kopieringsaktivitet en ny beräkning baserat på konfigurationen i kopieringsaktiviteten. När det hanterade virtuella nätverket är aktiverat tar starttiden för kallberäkning några minuter och dataflytten kan inte starta förrän den är klar. Om dina pipelines innehåller flera sekventiella kopieringsaktiviteter eller om du har många kopieringsaktiviteter i foreach-loopen och inte kan köra alla parallellt, kan du aktivera ett TTL-värde (time to live) i Azure Integration Runtime-konfigurationen. Om du anger ett time to live-värde och DIU-nummer som krävs för kopieringsaktiviteten håller motsvarande beräkningar vid liv under en viss tid efter att körningen har slutförts. Om en ny kopieringsaktivitet startar under TTL-tiden återanvänds de befintliga beräkningen och starttiden minskar avsevärt. När den andra kopieringsaktiviteten har slutförts fortsätter beräkningen att hålla sig vid liv under TTL-tiden. Du har flexibiliteten att välja bland de fördefinierade beräkningsstorlekarna, allt från små till medelstora till stora. Du kan också välja att anpassa beräkningsstorleken baserat på dina specifika krav och realtidsbehov.

Kommentar

Om du konfigurerar om DIU-numret påverkas inte den aktuella kopieringsaktiviteten.

Kommentar

Måttet för dataintegreringsenhet (DIU) på 2 DIU stöds inte för aktiviteten Kopiera i ett hanterat virtuellt nätverk.

Den DIU som du väljer i TTL används för att köra alla kopieringsaktiviteter, storleken på DIU:en skalas inte automatiskt enligt de faktiska behoven. Så du måste välja tillräckligt många DIU:er.

Varning

Om du väljer några DIU:er för att köra många aktiviteter blir många aktiviteter väntande i kön, vilket allvarligt påverkar den övergripande prestandan.

Pipeline och extern aktivitet

På samma sätt som kopian har du möjlighet att skräddarsy beräkningsstorleken och TTL-varaktigheten enligt dina specifika krav. Observera dock, till skillnad från kopian, att pipeline och extern TTL inte kan inaktiveras.

Kommentar

Time to live (TTL) gäller endast för hanterade virtuella nätverk.

Screenshot that shows the TTL configuration.

Du kan använda tabellen nedan som referens för att fastställa det optimala antalet noder för körning av både pipelines och externa aktiviteter.

Aktivitetstyp Kapacitet
Pipelineaktivitet Cirka 50 per nod
Skriptaktivitet och uppslagsaktivitet med SQL alwaysEncrypted tenderar att förbruka fler resurser jämfört med andra pipelineaktiviteter, där det föreslagna antalet är cirka 10 per nod
Extern aktivitet Cirka 800 per nod

Jämförelse av olika TTL

I följande tabell visas skillnaderna mellan olika typer av TTL:

Funktion Interaktiv redigering Kopiera beräkningsskala Pipeline- och extern beräkningsskala
När börjar gälla Omedelbart efter aktiveringen Första aktivitetskörningen Första aktivitetskörningen
Kan inaktiveras Y Y N
Reserverad beräkning kan konfigureras N Y Y

Kommentar

Du kan inte aktivera TTL i standardkörningen för automatisk lösning av Azure-integrering. Du kan skapa en ny Azure-integreringskörning för den.

Kommentar

När TTL för kopiering/pipeline/extern beräkningsskala aktiveras bestäms faktureringen av de reserverade beräkningsresurserna. Därför inkluderar inte aktivitetens utdata billingReference, eftersom detta är exklusivt relevant i icke-TTL-scenarier.

Skapa ett hanterat virtuellt nätverk via Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Kommentar

Du kan hämta groupId för andra datakällor från en privat länkresurs.

Utgående anslutning

Datakällor och tjänster som stöds

Följande tjänster har inbyggt stöd för privata slutpunkter. De kan anslutas via en privat länk från ett hanterat virtuellt Data Factory-nätverk:

  • Azure Databricks
  • Azure Functions (Premium-abonnemang)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Om du vill ha stöd för datakällor kan du läsa översikten över anslutningsappen. Du kan komma åt alla datakällor som stöds av Data Factory via ett offentligt nätverk.

Lokala datakällor

Information om hur du får åtkomst till lokala datakällor från ett hanterat virtuellt nätverk med hjälp av en privat slutpunkt, finns i Få åtkomst till lokal SQL Server från ett virtuellt Data Factory-hanterat nätverk via en privat slutpunkt).

Utgående kommunikation via offentlig slutpunkt från ett hanterat virtuellt Data Factory-nätverk

Alla portar öppnas för utgående kommunikation.

Begränsningar och kända problem

Skapa länkad tjänst för Key Vault

När du skapar en länkad tjänst för Key Vault finns det ingen referens för integreringskörning. Därför kan du inte skapa privata slutpunkter när du skapar en länkad tjänst för Key Vault. Men när du skapar en länkad tjänst för datalager som refererar till Key Vault, och den här länkade tjänsten refererar till en integreringskörning med hanterat virtuellt nätverk aktiverat, kan du skapa en privat slutpunkt för Key Vault när du skapar den.

  • Testanslutning: Den här åtgärden för en länkad tjänst i Key Vault verifierar bara URL-formatet men utför ingen nätverksåtgärd.
  • Använd privat slutpunkt: Den här kolumnen visas alltid som tom även om du skapar en privat slutpunkt för Key Vault.

Skapa länkad tjänst i Azure HDInsight

Kolumnen Använda privat slutpunkt visas alltid som tom även om du skapar en privat slutpunkt för HDInsight med hjälp av en privat länktjänst och en lastbalanserare med portvidarebefordring.

Screenshot that shows a private endpoint for Key Vault.

Fullständigt domännamn (FQDN) för Azure HDInsight

Om du har skapat en anpassad privat länktjänst bör FQDN sluta med azurehdinsight.net utan att leda privatelink i domännamnet när du skapar en privat slutpunkt. Om du använder privatelink i domännamnet kontrollerar du att det är giltigt och att du kan lösa det.

Åtkomstbegränsningar i hanterat virtuellt nätverk med privata slutpunkter

Du kan inte komma åt varje PaaS-resurs när båda sidor exponeras för Private Link och en privat slutpunkt. Det här problemet är en känd begränsning för Private Link och privata slutpunkter.

Du har till exempel en hanterad privat slutpunkt för lagringskonto A. Du kan också komma åt lagringskontoT B via det offentliga nätverket i samma hanterade virtuella nätverk. Men när lagringskonto B har en privat slutpunktsanslutning från ett annat hanterat virtuellt nätverk eller ett virtuellt kundnätverk kan du inte komma åt lagringskontoT B i ditt hanterade virtuella nätverk via det offentliga nätverket.

Se följande självstudiekurser: