Azure Data Factory hanterat virtuellt nätverk

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Tips

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver hanterade virtuella nätverk och hanterade privata slutpunkter i Azure Data Factory.

Hanterat virtuellt nätverk

När du skapar en Azure-integrationskörning i ett hanterat virtuellt Data Factory-nätverk etableras integrationskörningen med det hanterade virtuella nätverket. Den använder privata slutpunkter för att på ett säkert sätt ansluta till datalager som stöds.

Genom att skapa en integrationskörning i ett hanterat virtuellt nätverk ser du till att dataintegreringsprocessen är isolerad och säker.

Fördelar med att använda ett hanterat virtuellt nätverk:

  • Med ett hanterat virtuellt nätverk kan du avlasta hanteringen av det virtuella nätverket till Data Factory. Du behöver inte skapa ett undernät för en integrationskörning som så småningom kan använda många privata IP-adresser från ditt virtuella nätverk och som kräver tidigare planering av nätverksinfrastrukturen.
  • Djup kunskap om Azure-nätverk krävs inte för att göra dataintegreringar på ett säkert sätt. I stället är det mycket enklare för datatekniker att komma igång med säker ETL.
  • Ett hanterat virtuellt nätverk tillsammans med hanterade privata slutpunkter skyddar mot dataexfiltrering.

För närvarande stöds det hanterade virtuella nätverket endast i samma region som Data Factory-regionen.

Anteckning

En befintlig global integrationskörning kan inte växla till en integrationskörning i ett hanterat virtuellt Data Factory-nätverk och vice versa.

Diagram som visar datafabrikens hanterade virtuella nätverksarkitektur.

Det finns två sätt att aktivera hanterat virtuellt nätverk i datafabriken:

  1. Aktivera hanterat virtuellt nätverk när datafabriken skapas.

Skärmbild av aktivering av hanterat virtuellt nätverk när datafabriken skapas.

  1. Aktivera hanterat virtuellt nätverk i Integration Runtime.

Skärmbild av aktivering av hanterat virtuellt nätverk i integrationskörning

Hanterade privata slutpunkter

Hanterade privata slutpunkter är privata slutpunkter som skapats i det hanterade virtuella nätverket i Data Factory. Detta upprättar en privat länk till Azure-resurser. Data Factory hanterar de här privata slutpunkterna för din räkning.

Data Factory stöder privata länkar. Du kan använda privat Azure-länk för att få åtkomst till PaaS-tjänster (Plattform som en tjänst) som Azure Storage, Azure Cosmos DB och Azure Synapse Analytics.

När du använder en privat länk passerar trafiken mellan dina datalager och det hanterade virtuella nätverket helt över Microsofts stamnätverk. Privat länk skyddar mot dataexfiltreringsrisker. Du upprättar en privat länk till en resurs genom att skapa en privat slutpunkt.

En privat slutpunkt använder en privat IP-adress i det hanterade virtuella nätverket för att effektivt föra in tjänsten i den. Privata slutpunkter mappas till en specifik resurs i Azure och inte till hela tjänsten. Kunder kan begränsa anslutningen till en specifik resurs som godkänts av deras organisation. Mer information finns i Privata länkar och privata slutpunkter.

Anteckning

Resursprovidern Microsoft.Network måste vara registrerad i din prenumeration.

  1. Se till att du aktiverar hanterat virtuellt nätverk i datafabriken.
  2. Skapa en ny hanterad privat slutpunkt i Hantera hubb.

Skärmbild som visar nya hanterade privata slutpunkter.

  1. En privat slutpunktsanslutning skapas i ett väntande tillstånd när du skapar en hanterad privat slutpunkt i Data Factory. Ett arbetsflöde för godkännande initieras. Resursägaren för den privata länken ansvarar för att godkänna eller avvisa anslutningen.

Skärmbild som visar alternativet Hantera godkännanden i Azure Portal.

  1. Om ägaren godkänner anslutningen upprättas den privata länken. Annars upprättas inte den privata länken. I båda fallen uppdateras den hanterade privata slutpunkten med anslutningens status.

Skärmbild som visar godkännande av en hanterad privat slutpunkt.

Endast en hanterad privat slutpunkt i ett godkänt tillstånd kan skicka trafik till en specifik privat länkresurs.

Anteckning

Anpassad DNS stöds inte i hanterat virtuellt nätverk.

Interaktiv redigering

Interaktiva redigeringsfunktioner används för funktioner som testanslutning, bläddra i mapplista och tabelllista, hämta schema och förhandsgranska data. Du kan aktivera interaktiv redigering när du skapar eller redigerar en Azure-integreringskörning, som finns i Azure Data Factory hanterade virtuella nätverket. Serverdelstjänsten allokerar beräkning i förväg för interaktiva redigeringsfunktioner. Annars allokeras beräkningen varje gång en interaktiv åtgärd utförs, vilket tar längre tid. Time to live (TTL) för interaktiv redigering är som standard 60 minuter, vilket innebär att det automatiskt inaktiveras efter 60 minuter av den senaste interaktiva redigeringsåtgärden. Du kan ändra TTL-värdet enligt dina faktiska behov.

Skärmbild som visar interaktiv redigering.

Time to live

Kopieringsaktivitet

Som standard startar varje kopieringsaktivitet en ny beräkning baserat på konfigurationen i kopieringsaktiviteten. När det hanterade virtuella nätverket är aktiverat tar starttiden för kalla beräkningar några minuter och dataflytten kan inte starta förrän den är klar. Om dina pipelines innehåller flera sekventiella kopieringsaktiviteter eller om du har många kopieringsaktiviteter i foreach-loopen och inte kan köra dem alla parallellt, kan du aktivera ett TTL-värde (time to live) i Azure Integration Runtime-konfigurationen. Om du anger ett time to live-värde och DIU-nummer som krävs för kopieringsaktiviteten håller motsvarande beräkningar vid liv under en viss tid efter att körningen har slutförts. Om en ny kopieringsaktivitet startar under TTL-tiden återanvänds de befintliga beräkningen och starttiden minskar avsevärt. När den andra kopieringsaktiviteten har slutförts fortsätter beräkningen att vara aktiv under TTL-tiden. Du har flexibiliteten att välja bland de fördefinierade beräkningsstorlekarna, från små till medelstora till stora. Du kan också välja att anpassa beräkningsstorleken baserat på dina specifika krav och realtidsbehov.

Anteckning

Om du konfigurerar om DIU-numret påverkas inte den aktuella kopieringsaktivitetskörningen.

Anteckning

Måttet dataintegreringsenhet (DIU) på 2 DIU stöds inte för aktiviteten Kopiera i ett hanterat virtuellt nätverk.

Den DIU som du väljer i TTL används för att köra alla kopieringsaktiviteter. Storleken på DIU:en skalas inte automatiskt efter faktiska behov. Så du måste välja tillräckligt många DIU:er.

Varning

Om du väljer några DIU:er för att köra många aktiviteter blir många aktiviteter väntande i kön, vilket allvarligt påverkar den övergripande prestandan.

Pipeline och extern aktivitet

På samma sätt som med kopian kan du anpassa beräkningsstorleken och TTL-varaktigheten enligt dina specifika krav. Observera dock, till skillnad från kopian, att pipeline och extern TTL inte kan inaktiveras.

Anteckning

Time to live (TTL) gäller endast för hanterat virtuellt nätverk.

Skärmbild som visar TTL-konfigurationen.

Du kan använda tabellen nedan som referens för att fastställa det optimala antalet noder för körning av både pipelines och externa aktiviteter.

Aktivitetstyp Kapacitet
Pipelineaktivitet Cirka 50 per nod
Skriptaktivitet och uppslagsaktivitet med SQL alwaysEncrypted tenderar att förbruka fler resurser jämfört med andra pipelineaktiviteter, där det föreslagna antalet är cirka 10 per nod
Extern aktivitet Cirka 800 per nod

Jämförelse av olika TTL

I följande tabell visas skillnaderna mellan olika typer av TTL:

Funktion Interaktiv redigering Kopiera beräkningsskala Extern beräkningsskala för pipeline &
När börjar gälla Omedelbart efter aktivering Körning av första aktiviteten Körning av första aktiviteten
Kan inaktiveras Y Y N
Reserverad beräkning kan konfigureras N Y Y

Anteckning

Du kan inte aktivera TTL i standardinställningen för automatisk lösning av Azure Integration Runtime. Du kan skapa en ny Azure-integrationskörning för den.

Skapa ett hanterat virtuellt nätverk via Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Anteckning

Du kan hämta groupId för andra datakällor från en privat länkresurs.

Utgående anslutning

Datakällor och tjänster som stöds

Följande tjänster har inbyggt stöd för privata slutpunkter. De kan anslutas via en privat länk från ett hanterat virtuellt Data Factory-nätverk:

  • Azure Databricks
  • Azure Functions (Premium-abonnemang)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Om du vill ha stöd för datakällor kan du läsa översikten över anslutningsappen. Du kan komma åt alla datakällor som stöds av Data Factory via ett offentligt nätverk.

Lokala datakällor

Information om hur du får åtkomst till lokala datakällor från ett hanterat virtuellt nätverk med hjälp av en privat slutpunkt, finns i Få åtkomst till lokal SQL Server från ett virtuellt Data Factory-hanterat nätverk via en privat slutpunkt).

Utgående kommunikation via offentlig slutpunkt från ett hanterat virtuellt Data Factory-nätverk

Alla portar öppnas för utgående kommunikation.

Begränsningar och kända problem

Skapa länkad tjänst för Key Vault

När du skapar en länkad tjänst för Key Vault finns det ingen referens för integrationskörning. Därför kan du inte skapa privata slutpunkter när länkade tjänster skapas av Key Vault. Men när du skapar en länkad tjänst för datalager som refererar till Key Vault, och den här länkade tjänsten refererar till en integrationskörning med hanterat virtuellt nätverk aktiverat, kan du skapa en privat slutpunkt för Key Vault när du skapar.

  • Testanslutning: Den här åtgärden för en länkad tjänst i Key Vault validerar bara URL-formatet men utför ingen nätverksåtgärd.
  • Använda privat slutpunkt: Den här kolumnen visas alltid som tom även om du skapar en privat slutpunkt för Key Vault.

Skapa länkad tjänst i Azure HDInsight

Kolumnen Använda privat slutpunkt visas alltid som tom även om du skapar en privat slutpunkt för HDInsight med hjälp av en privat länktjänst och en lastbalanserare med portvidarebefordring.

Skärmbild som visar en privat slutpunkt för Key Vault.

Fullständigt kvalificerat domännamn (FQDN) för Azure HDInsight

Om du har skapat en anpassad privat länktjänst bör FQDN sluta med azurehdinsight.net utan att leda privatelink i domännamnet när du skapar en privat slutpunkt. Om du använder privatelink i domännamnet kontrollerar du att det är giltigt och att du kan lösa det.

Åtkomstbegränsningar i hanterat virtuellt nätverk med privata slutpunkter

Du kan inte komma åt varje PaaS-resurs när båda sidor exponeras för Private Link och en privat slutpunkt. Det här problemet är en känd begränsning för Private Link och privata slutpunkter.

Du har till exempel en hanterad privat slutpunkt för lagringskonto A. Du kan också komma åt lagringskontoT B via offentligt nätverk i samma hanterade virtuella nätverk. Men när lagringskonto B har en privat slutpunktsanslutning från ett annat hanterat virtuellt nätverk eller ett virtuellt kundnätverk kan du inte komma åt lagringskontoT B i ditt hanterade virtuella nätverk via det offentliga nätverket.

Nästa steg

Se följande självstudiekurser: